一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

AI代理开始进行真实的生物分析：检查数据集、运行计算工作流，并产生有价值的研究成果。随着科学领域的AI逐渐接近实验室的实际应用，如何有效评估生物代理的问题变得越来越重要。 BixBench Verified 50是一个经过精心策划的问题列表，用于评估多个生物信息学领域的生物代理。我们在BixBench Verified 50上测试了BIOS AI科学家，比较了通用和特定领域的AI代理。 BIOS以90%的准确率领先，K-Dense紧随其后。接下来是： > Biomni Labs - 88.7% > Edison Scientific - 78.0% > Claude - 65.3% & > OpenAI Agents SDK - 61.3% 查看完整结果：一个关键的收获是：评估生物代理不仅仅是看分析流程是否正确运行。在一个基准任务中，代理计算了正确的相关性，但误解了数据集列的生物学意义。结果：数值上正确的分析，但生物学上得出了相反的结论。随着生物代理从受控基准测试转向真实的科学环境，我们需要评估工作流程、假设和推理，而不仅仅是最终答案在数值上是否正确。在我们的博客文章中阅读更多内容：