Агенти ШІ починають проводити справжній біологічний аналіз: інспектувати набори даних, запускати обчислювальні робочі процеси та отримувати цінні наукові результати. Оскільки ШІ для науки наближається до практичного застосування в лабораторіях, питання про те, як ефективно оцінювати біологічні агенти, стає дедалі важливішим. BixBench Verified 50 — це відібраний перелік питань для оцінки біологічних агентів у кількох галузях біоінформатики. Ми протестували BIOS AI Scientist на BixBench Verified 50 разом із універсальними та доменно-специфічними AI-агентами. BIOS відкривався з точністю 90% разом із K-Dense. Далі: > Biomni Labs — 88,7% > Edison Scientific — 78,0% > Клод — 65,3% і > SDK агентів OpenAI — 61,3% Дивіться повні результати: Один із ключових висновків: оцінка біологічних агентів — це не лише питання правильного аналізу. В одному з бенчмаркових завдань агент обчислив правильні кореляції, але неправильно інтерпретував біологічне значення стовпця набору даних. Результат: чисельно правильний аналіз, але біологічно перевернуті висновки. Оскільки біологічні агенти переходять від контрольованих еталонів до реальних наукових умов, нам потрібно оцінювати робочий процес, припущення та міркування, а не лише чисельну точність остаточної відповіді. Дізнайтеся більше у нашому блозі: