Os agentes de IA estão começando a realizar análises biológicas reais: inspecionando conjuntos de dados, executando fluxos de trabalho computacionais e produzindo resultados de pesquisa valiosos. À medida que a IA para ciência se aproxima do uso prático em laboratórios, a questão de como avaliar efetivamente os agentes biológicos torna-se cada vez mais importante. A BixBench Verified 50 é uma lista curada de perguntas para avaliar agentes biológicos em vários domínios de bioinformática. Testamos o BIOS AI Scientist na BixBench Verified 50 ao lado de agentes de IA de uso geral e específicos de domínio. O BIOS liderou com 90% de precisão, junto com o K-Dense. Seguido por: > Biomni Labs - 88,7% > Edison Scientific - 78,0% > Claude - 65,3% & > OpenAI Agents SDK - 61,3% Veja os resultados completos: Uma conclusão chave: avaliar agentes biológicos não se trata apenas de saber se o pipeline de análise funciona corretamente. Em uma tarefa de benchmark, o agente computou as correlações corretas, mas interpretou mal o significado biológico de uma coluna do conjunto de dados. O resultado: análise numericamente correta, mas conclusões biologicamente invertidas. À medida que os agentes biológicos passam de benchmarks controlados para ambientes científicos do mundo real, precisamos avaliar o fluxo de trabalho, as suposições e o raciocínio, não apenas se a resposta final é numericamente correta. Leia mais em nosso post no blog: