Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Професор @ Стенфорд GSB, Гувер. Я працюю над технологіями, політикою та управлінням. Радник у a16z crypto та Meta.
Величезна нова масштабна робота з політичного переконання в ШІ.

Josh Kalla11 бер., 10:04
Який ШІ є найпереконливішим? Новий робочий документ із Чжунгреном Ченом і Цюань Ле ми протестували 7 LLM на 19 тисячах людей. Рейтинг: (1) Клод; (2, нічия) GPT, Gemini (3) Grok. Послідовність у питаннях і двопартійних позиціях

93
Дуже цікава робота про те, як емпіричні дослідження мають реагувати на епоху ШІ.
Традиційне статистичне тестування з p-значеннями походить із світу, де кожен тест вважався досить дорогим. ШІ тепер робить кожен тест фактично безкоштовним для проведення тестів.
Деякі ключові моменти з анотації:
--"Ми доводимо, що скринінг руйнується, оскільки тестування стає дешевшим, якщо необхідна кількість перевірок стійкості не масштабується принаймні лінійно у зворотній вартості кожного тесту"
--"ми стверджуємо необхідність розробки методів одночасної інтерпретації наборів багатьох специфікацій"
Так! Я досі не знаю точно, як це виглядатиме і відчувається, але це явно те, що потрібно. І він має розрізатися в обидва боки:
(1) Виявляти та стримувати вибрані результати досліджень
Але не менш важливо:
(2) Виявляти та винагороджувати хороші результати.
Номер 2 тут може виявитися в деяких аспектах складнішим. Вся наша інтуїція зосереджена на тому, щоб показати, що відкриття «менш надійне», ніж ми думали, і вимагати фальшивого відчуття досконалості з опублікованих результатів. Коли ми бачимо всю сузір'я результатів, нам потрібно знайти правильний спосіб бути більш благодійними/реалістичними щодо того, що вважається корисною інформацією.

Nic Fishman9 бер., 22:35
Зростає занепокоєння, що ШІ зламає емпіричні соціальні науки — що агенти можуть зламувати, доки не знайдуть щось, що «працює».
Ми вважаємо, що це занепокоєння заслуговує на серйозне сприйняття. Наша нова стаття емпірично підтверджує, що це правда, і робить це точним:
438
Цікаво, що код Claude працює краще, ніж codex у цій вправі. Ми помітили, що вони приблизно схожі, але наші завдання зовсім різні!
@xuyiqing ви робили якісь порівняння між цими двома у своїй роботі з реплікацією?

Meysam Alizadeh7 бер., 06:14
Чи можуть агенти, що кодують ШІ, відтворювати опубліковані результати соціальних наук?
У новій роботі з @_mohsen_m, Фабріціо Джиларді та @j_a_tucker ми представляємо SocSci-Repro-Bench — бенчмарк із 221 завдання відтворюваності з 54 статей — і оцінюємо два передових кодувальних агентів: Claude Code і Codex.
Результати виявляють як вражаючі можливості, так і нові ризики для науки з підтримкою ШІ.
------------------------------------
МЕТА
--------
Ключовою метою дизайну було розділення двох різних задач:
1️⃣ Чи є реплікаційні матеріали відтворюваними?
2️⃣ Чи можуть агенти ШІ відтворювати результати, коли матеріали є виконуваними?
Щоб ізолювати продуктивність агентів, ми включили лише завдання, результати яких були ідентичними при трьох незалежних ручних виконаннях.
------------------------------------
КОНСТРУКЦІЯ
--------
Отримані агенти:
• анонімізовані дані + код
• середовище виконання в пісочниці
Вони мусили автономно:
• встановлення залежностей
• налагодження зламаного коду
• виконати конвеєр
• витягти запитувані результати
Коротко: наскрізне комп'ютерне відтворення.
------------------------------------
РЕЗУЛЬТАТИ
--------
Обидва агенти відтворили значну частину опублікованих результатів.
Але Claude Code значно перевершив Codex.
Точність на рівні завдань
• Код Клода: 93,4%
• Кодекс: 62,1%
Відтворення на паперовому рівні (усі завдання правильні)
• Код Клода: 78,0%
• Кодекс: 35,8%
------------------------------------
ЧОМУ РОЗРИВ?
--------
Реплікаційні пакети часто містять проблеми:
• відсутні залежності
• жорстко закодовані шляхи до файлів
• неповні специфікації середовища
Claude Code часто самостійно усувала ці проблеми. Codex часто не міг відновити конвеєр виконання.
------------------------------------
ЦЕ ПРОСТО ЗАПАМ'ЯТОВУВАННЯ?
--------
Ми перевірили це, попросивши агентів вивести метаддані статей (назва, автори, журнал, рік) з анонімізованих матеріалів реплікації. Показники відновлення були дуже низькими, що свідчить про те, що агенти переважно покладалися на виконання коду, а не на запам'ятовування паперів.
------------------------------------
ТЕСТ НА ЛОГІКУ
--------
Ми також протестували складніше завдання:
Чи можуть агенти зробити висновок про дослідницьке питання дослідження лише на основі коду та даних?
Обидва агенти показали себе дивовижно добре.
------------------------------------
ПІДТВЕРДЖУВАЛЬНА ЗМІЩЕНІСТЬ
--------
Коли агентам надали паперовий PDF, виникла нова проблема. Іноді вони копіювали повідомлені результати з тексту замість виконання коду.
Точність у невідтворюваних завданнях різко впала.
Контекст допомагає виконанню — але знижує незалежність від перевірки.
------------------------------------
ПІДЛАБУЗНИЦТВО
--------
Натхненні @ahall_research, ми протестували конфронтаційне підказкове обрамлення, підштовхуючи агентів до:
"Досліджуйте альтернативні аналізи, які відповідають результатам статті."
Точність зросла.
Але агенти також ставали більш схильними вигадувати результати, коли розмноження було неможливим.
------------------------------------
ПАРАДОКС
--------
Тиск на отримання відповіді може допомогти агентам відновити конвеєри виконання.
Але водночас це підриває їхню здатність казати:
«Цей результат не можна відтворити.»
Розпізнавання, коли розмноження неможливе, може бути найважливішою науковою здатністю.
------------------------------------
ПРИМІТКИ
--------
• Це робота в процесі — відгуки вітаються.
• Бенчмарк доступний на GitHub.
• Матеріали для реплікації, розміщені на Dataverse.
Стаття + репозиторій у відповіді нижче.

357
Найкращі
Рейтинг
Вибране
