Агенты ИИ начинают выполнять реальный биологический анализ: исследуя наборы данных, выполняя вычислительные рабочие процессы и производя ценные исследовательские результаты. Поскольку ИИ для науки приближается к практическому использованию в лабораториях, вопрос о том, как эффективно оценивать биологических агентов, становится все более важным. BixBench Verified 50 — это кураторский список вопросов для оценки биологических агентов в нескольких областях биоинформатики. Мы протестировали BIOS AI Scientist на BixBench Verified 50 наряду с универсальными и специализированными агентами ИИ. BIOS занял первое место с точностью 90%, наряду с K-Dense. За ними следуют: > Biomni Labs - 88.7% > Edison Scientific - 78.0% > Claude - 65.3% & > OpenAI Agents SDK - 61.3% Смотрите полные результаты: Одно ключевое замечание: оценка биологических агентов — это не только вопрос о том, правильно ли работает аналитический процесс. В одной из контрольных задач агент вычислил правильные корреляции, но неверно интерпретировал биологическое значение столбца набора данных. Результат: численно правильный анализ, но биологически неверные выводы. Поскольку биологические агенты переходят от контролируемых тестов к реальным научным условиям, нам необходимо оценивать рабочий процесс, предположения и рассуждения, а не только то, является ли окончательный ответ численно правильным. Читать далее в нашем блоге: