Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Агенты ИИ начинают выполнять реальный биологический анализ: исследуя наборы данных, выполняя вычислительные рабочие процессы и производя ценные исследовательские результаты.
Поскольку ИИ для науки приближается к практическому использованию в лабораториях, вопрос о том, как эффективно оценивать биологических агентов, становится все более важным.
BixBench Verified 50 — это кураторский список вопросов для оценки биологических агентов в нескольких областях биоинформатики.
Мы протестировали BIOS AI Scientist на BixBench Verified 50 наряду с универсальными и специализированными агентами ИИ.
BIOS занял первое место с точностью 90%, наряду с K-Dense.
За ними следуют:
> Biomni Labs - 88.7%
> Edison Scientific - 78.0%
> Claude - 65.3% &
> OpenAI Agents SDK - 61.3%
Смотрите полные результаты:
Одно ключевое замечание: оценка биологических агентов — это не только вопрос о том, правильно ли работает аналитический процесс.
В одной из контрольных задач агент вычислил правильные корреляции, но неверно интерпретировал биологическое значение столбца набора данных.
Результат: численно правильный анализ, но биологически неверные выводы.
Поскольку биологические агенты переходят от контролируемых тестов к реальным научным условиям, нам необходимо оценивать рабочий процесс, предположения и рассуждения, а не только то, является ли окончательный ответ численно правильным.
Читать далее в нашем блоге:

Топ
Рейтинг
Избранное
