Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Агенти ШІ починають проводити справжній біологічний аналіз: інспектувати набори даних, запускати обчислювальні робочі процеси та отримувати цінні наукові результати.
Оскільки ШІ для науки наближається до практичного застосування в лабораторіях, питання про те, як ефективно оцінювати біологічні агенти, стає дедалі важливішим.
BixBench Verified 50 — це відібраний перелік питань для оцінки біологічних агентів у кількох галузях біоінформатики.
Ми протестували BIOS AI Scientist на BixBench Verified 50 разом із універсальними та доменно-специфічними AI-агентами.
BIOS відкривався з точністю 90% разом із K-Dense.
Далі:
> Biomni Labs — 88,7%
> Edison Scientific — 78,0%
> Клод — 65,3% і
> SDK агентів OpenAI — 61,3%
Дивіться повні результати:
Один із ключових висновків: оцінка біологічних агентів — це не лише питання правильного аналізу.
В одному з бенчмаркових завдань агент обчислив правильні кореляції, але неправильно інтерпретував біологічне значення стовпця набору даних.
Результат: чисельно правильний аналіз, але біологічно перевернуті висновки.
Оскільки біологічні агенти переходять від контрольованих еталонів до реальних наукових умов, нам потрібно оцінювати робочий процес, припущення та міркування, а не лише чисельну точність остаточної відповіді.
Дізнайтеся більше у нашому блозі:

Найкращі
Рейтинг
Вибране
