Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Andy Hall

Професор @ Стенфорд GSB, Гувер. Я працюю над технологіями, політикою та управлінням. Радник у a16z crypto та Meta.

Дуже цікава робота про те, як емпіричні дослідження мають реагувати на епоху ШІ. Традиційне статистичне тестування з p-значеннями походить із світу, де кожен тест вважався досить дорогим. ШІ тепер робить кожен тест фактично безкоштовним для проведення тестів. Деякі ключові моменти з анотації: --"Ми доводимо, що скринінг руйнується, оскільки тестування стає дешевшим, якщо необхідна кількість перевірок стійкості не масштабується принаймні лінійно у зворотній вартості кожного тесту" --"ми стверджуємо необхідність розробки методів одночасної інтерпретації наборів багатьох специфікацій" Так! Я досі не знаю точно, як це виглядатиме і відчувається, але це явно те, що потрібно. І він має розрізатися в обидва боки: (1) Виявляти та стримувати вибрані результати досліджень Але не менш важливо: (2) Виявляти та винагороджувати хороші результати. Номер 2 тут може виявитися в деяких аспектах складнішим. Вся наша інтуїція зосереджена на тому, щоб показати, що відкриття «менш надійне», ніж ми думали, і вимагати фальшивого відчуття досконалості з опублікованих результатів. Коли ми бачимо всю сузір'я результатів, нам потрібно знайти правильний спосіб бути більш благодійними/реалістичними щодо того, що вважається корисною інформацією.

Цікаво, що код Claude працює краще, ніж codex у цій вправі. Ми помітили, що вони приблизно схожі, але наші завдання зовсім різні! @xuyiqing ви робили якісь порівняння між цими двома у своїй роботі з реплікацією?

Чи можуть агенти, що кодують ШІ, відтворювати опубліковані результати соціальних наук? У новій роботі з @_mohsen_m, Фабріціо Джиларді та @j_a_tucker ми представляємо SocSci-Repro-Bench — бенчмарк із 221 завдання відтворюваності з 54 статей — і оцінюємо два передових кодувальних агентів: Claude Code і Codex. Результати виявляють як вражаючі можливості, так і нові ризики для науки з підтримкою ШІ. ------------------------------------ МЕТА -------- Ключовою метою дизайну було розділення двох різних задач: 1️⃣ Чи є реплікаційні матеріали відтворюваними? 2️⃣ Чи можуть агенти ШІ відтворювати результати, коли матеріали є виконуваними? Щоб ізолювати продуктивність агентів, ми включили лише завдання, результати яких були ідентичними при трьох незалежних ручних виконаннях. ------------------------------------ КОНСТРУКЦІЯ -------- Отримані агенти: • анонімізовані дані + код • середовище виконання в пісочниці Вони мусили автономно: • встановлення залежностей • налагодження зламаного коду • виконати конвеєр • витягти запитувані результати Коротко: наскрізне комп'ютерне відтворення. ------------------------------------ РЕЗУЛЬТАТИ -------- Обидва агенти відтворили значну частину опублікованих результатів. Але Claude Code значно перевершив Codex. Точність на рівні завдань • Код Клода: 93,4% • Кодекс: 62,1% Відтворення на паперовому рівні (усі завдання правильні) • Код Клода: 78,0% • Кодекс: 35,8% ------------------------------------ ЧОМУ РОЗРИВ? -------- Реплікаційні пакети часто містять проблеми: • відсутні залежності • жорстко закодовані шляхи до файлів • неповні специфікації середовища Claude Code часто самостійно усувала ці проблеми. Codex часто не міг відновити конвеєр виконання. ------------------------------------ ЦЕ ПРОСТО ЗАПАМ'ЯТОВУВАННЯ? -------- Ми перевірили це, попросивши агентів вивести метаддані статей (назва, автори, журнал, рік) з анонімізованих матеріалів реплікації. Показники відновлення були дуже низькими, що свідчить про те, що агенти переважно покладалися на виконання коду, а не на запам'ятовування паперів. ------------------------------------ ТЕСТ НА ЛОГІКУ -------- Ми також протестували складніше завдання: Чи можуть агенти зробити висновок про дослідницьке питання дослідження лише на основі коду та даних? Обидва агенти показали себе дивовижно добре. ------------------------------------ ПІДТВЕРДЖУВАЛЬНА ЗМІЩЕНІСТЬ -------- Коли агентам надали паперовий PDF, виникла нова проблема. Іноді вони копіювали повідомлені результати з тексту замість виконання коду. Точність у невідтворюваних завданнях різко впала. Контекст допомагає виконанню — але знижує незалежність від перевірки. ------------------------------------ ПІДЛАБУЗНИЦТВО -------- Натхненні @ahall_research, ми протестували конфронтаційне підказкове обрамлення, підштовхуючи агентів до: "Досліджуйте альтернативні аналізи, які відповідають результатам статті." Точність зросла. Але агенти також ставали більш схильними вигадувати результати, коли розмноження було неможливим. ------------------------------------ ПАРАДОКС -------- Тиск на отримання відповіді може допомогти агентам відновити конвеєри виконання. Але водночас це підриває їхню здатність казати: «Цей результат не можна відтворити.» Розпізнавання, коли розмноження неможливе, може бути найважливішою науковою здатністю. ------------------------------------ ПРИМІТКИ -------- • Це робота в процесі — відгуки вітаються. • Бенчмарк доступний на GitHub. • Матеріали для реплікації, розміщені на Dataverse. Стаття + репозиторій у відповіді нижче.

Найкращі

Рейтинг

Вибране