AI代理开始进行真实的生物分析:检查数据集、运行计算工作流,并产生有价值的研究成果。 随着科学领域的AI逐渐接近实验室的实际应用,如何有效评估生物代理的问题变得越来越重要。 BixBench Verified 50是一个经过精心策划的问题列表,用于评估多个生物信息学领域的生物代理。 我们在BixBench Verified 50上测试了BIOS AI科学家,比较了通用和特定领域的AI代理。 BIOS以90%的准确率领先,K-Dense紧随其后。 接下来是: > Biomni Labs - 88.7% > Edison Scientific - 78.0% > Claude - 65.3% & > OpenAI Agents SDK - 61.3% 查看完整结果: 一个关键的收获是:评估生物代理不仅仅是看分析流程是否正确运行。 在一个基准任务中,代理计算了正确的相关性,但误解了数据集列的生物学意义。 结果:数值上正确的分析,但生物学上得出了相反的结论。 随着生物代理从受控基准测试转向真实的科学环境,我们需要评估工作流程、假设和推理,而不仅仅是最终答案在数值上是否正确。 在我们的博客文章中阅读更多内容: