Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andy Hall
Prof. @ Stanford GSB, Hoover. Pracuji na technologiích, politice a správě. Poradce v a16z crypto a Meta.
Velmi zajímavá práce o tom, jak musí empirický výzkum reagovat na éru umělé inteligence.
Konvenční statistické testování s p-hodnotami pochází ze světa, kde se každý test považoval za poměrně nákladný. AI nyní umožňuje v podstatě každý test spuštění zdarma.
Několik klíčových bodů z abstraktu:
--"dokazujeme, že screening se rozpadá, protože testování se stává levným, pokud požadovaný počet kontrol robustnosti neškáluje alespoň lineárně v inverzní nákladu každého testu"
--"argumentujeme nutností vyvíjet metody pro interpretaci množin mnoha specifikací současně"
Ano! Stále přesně nevím, jak to bude vypadat a jak to bude působit, ale je jasné, že je to to, co je potřeba. A musí řezat oběma směry:
(1) Chytit a odradit vybrané výzkumné výsledky
Ale stejně zásadní:
(2) Objevovat a odměňovat dobré nálezy.
Dvojka tady může být v některých ohledech těžší. Veškerá naše intuice se zdá být zaměřena na to, že ukážeme, že nález je "méně robustní", než jsme si mysleli, a vyžadujeme falešný pocit dokonalosti z publikovaných výsledků. Když můžeme vidět celou souhvězdí zjištění, musíme najít správný způsob, jak být shovívavější a realističtější ohledně toho, co se považuje za užitečné informace.

Nic Fishman9. 3. 22:35
Roste obava, že AI poruší empirické sociální vědy – že agenti mohou p-hackovat, dokud nenajdou něco, co "funguje".
Myslíme si, že tyto obavy si zaslouží být brány vážně. Náš nový článek to empiricky dokazuje a přesňuje to:
326
Zajímavé je, že Claudeův kód v tomto cvičení funguje lépe než kodex. Zjišťujeme, že jsou si zhruba podobné, ale naše úkoly jsou dost odlišné!
@xuyiqing jste při své práci na replikaci dělal nějaká srovnání mezi oběma oblastmi?

Meysam Alizadeh7. 3. 06:14
Mohou AI kódující agenti reprodukovat publikované poznatky ze společenských věd?
V nové práci s @_mohsen_m, Fabriziem Gilardim a @j_a_tucker představujeme SocSci-Repro-Bench — benchmark 221 reprodukovatelných úkolů z 54 článků — a hodnotíme dva frontier coding agenty: Claude Code a Codex.
Výsledky odhalují jak pozoruhodné schopnosti, tak nová rizika pro vědu podporovanou umělou inteligencí.
------------------------------------
CÍL
--------
Klíčovým cílem návrhu bylo oddělit dva různé problémy:
1️⃣ Jsou replikační materiály samy o sobě reprodukovatelné?
2️⃣ Mohou AI agenti reprodukovat výsledky, když jsou materiály spustitelné?
Pro izolaci výkonu agenta jsme zahrnuli pouze úlohy, jejichž výstupy byly totožné ve třech nezávislých ručních provedeních.
------------------------------------
KONSTRUKCE
--------
Obdrželi agenti:
• anonymizovaná data + kód
• prostředí pro popravu v sandboxu
Museli autonomně:
• instalační závislosti
• ladění nefunkčního kódu
• spustit pipeline
• extrahovat požadované výsledky
Stručně řečeno: end-to-end výpočetní reprodukce.
------------------------------------
VÝSLEDKY
--------
Oba agenti reprodukovali velkou část publikovaných zjištění.
Ale Claude Code výrazně překonal Codex.
Přesnost na úrovni úkolu
• Claudeův kód: 93,4 %
• Kodex: 62,1 %
Reprodukce na úrovni papíru (všechny úkoly správné)
• Claudeův kód: 78,0 %
• Kodex: 35,8 %
------------------------------------
PROČ TA MEZERA?
--------
Replikační balíčky často obsahují problémy:
• Chybějící závislosti
• pevně zakódované cesty k souboru
• neúplné specifikace prostředí
Claude Code tyto problémy často opravoval autonomně. Codex často nedokázal obnovit vykonávací pipeline.
------------------------------------
JE TO JEN MEMOROVÁNÍ?
--------
Testovali jsme to tak, že jsme agentům doporučili odvodit metadata článku (název, autoři, časopis, rok) z anonymizovaných replikačních materiálů. Míra obnovy byla velmi nízká, což naznačuje, že agenti se primárně spoléhali na provádění kódu, nikoli na memorování dokumentů.
------------------------------------
TEST UVAŽOVÁNÍ
--------
Testovali jsme také těžší úkol:
Mohou agenti odvodit výzkumnou otázku studie pouze z kódu a dat?
Oba agenti si vedli překvapivě dobře.
------------------------------------
POTVRZOVACÍ ZKRESLENÍ
--------
Když agentům byl předán papírový PDF, objevil se nový problém. Někdy kopírovali hlášené výsledky z textu místo toho, aby kód spustili.
Přesnost u nereprodukovatelných úkolů prudce klesla.
Kontext pomáhá při provádění — ale snižuje nezávislost na ověření.
------------------------------------
PODLÉZAVÁNÍ
--------
Inspirováni @ahall_research jsme testovali adversariální formulování promptů, nabádali agenty k:
"Prozkoumejte alternativní analýzy, které odpovídají výsledkům publikovaných článků."
Přesnost zvýšena.
Ale agenti také začali častěji vytvářet výsledky, když reprodukce nebyla možná.
------------------------------------
THE PARADOX
--------
Tlak na vytvoření odpovědi může agentům pomoci opravit postupy realizace.
Zároveň však oslabuje jejich schopnost říct:
"Tento výsledek nelze reprodukovat."
Rozpoznat, kdy je reprodukce nemožná, může být nejdůležitější vědeckou schopností.
------------------------------------
POZNÁMKY
--------
• Toto je rozpracovaná práce — zpětná vazba je vítána.
• Benchmark je dostupný na GitHubu.
• Replikační materiály hostované na Dataverse.
Článek + repozitář v odpovědi níže.

261
Free Systems se rozšiřuje.
Najal jsem skupinu 10+ výzkumných pracovníků a budujeme zcela novou laboratoř poháněnou umělou inteligencí, která přinese včasnější výzkum, nápady a prototypy určené k zachování lidské svobody v algoritmickém světě.
V následujících týdnech zveřejníme výzkum o tom, jak AI doporučuje lidem volit v Japonsku, o našich úspěšných experimentech s sázením v texaských primárkách, o přizpůsobení špičkových metod předpovědí AI od Bridgewateru k předpovídání geopolitiky a dalších.
Také budeme organizovat hackathon Free Systems, na který se moc těším.
Při stavbě nechceme ztratit ze zřetele to, co jsme už udělali --- cílem je, aby každý výzkum přispěl k procesu agregace, ne aby byl vyhozen online a navždy zapomenut.
Za tímto účelem začínáme páteční přehled nazvaný "System Check", kde přinášíme aktualizace o našem existujícím výzkumu, jak souvisí s novými vývoji a co znamená pro budování Free Systems.
První vychází dnes. Dejte mi vědět, co si o tom myslíte!

239
Top
Hodnocení
Oblíbené
