Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Rád trénuji velké hluboké neuronové sítě. Dříve ředitel AI @ Tesla, zakládající tým @ OpenAI, PhD @ Stanford.
Před třemi dny jsem opustil autoresearch tuning nanochat na ~2 dny na modelu depth=12. Zjistil ~20 změn, které zlepšily ztrátu validace. Tyto změny jsem testoval včera a všechny byly aditivní a přeneseny do větších (hloubka=24) modelů. Když všechny tyto změny shrnu, dnes jsem změřil, že "Čas do GPT-2" v žebříčku klesl z 2,02 hodiny na 1,80 hodiny (~11% zlepšení), a toto bude nový záznam v žebříčku. Takže ano, jsou to skutečné zlepšení a skutečně mají význam. Jsem mírně překvapený, že můj úplně první naivní pokus už tak dobře fungoval navíc k tomu, co jsem považoval za poměrně ručně dobře naladěný projekt.
Je to pro mě poprvé, protože jsem velmi zvyklý provádět iterativní optimalizaci tréninku neuronových sítí ručně. Přicházíte s nápady, realizujete je, kontrolujete, jestli fungují (lepší ztráta validace), vymýšlíte nové nápady na základě toho, čtete nějaké články pro inspiraci atd. To je základ toho, co dělám denně už dvě desetiletí. Vidět agenta, jak dělá celý tento pracovní postup od začátku do konce a sám, zatímco zvládl přibližně 700 změn autonomně, je šílené. Opravdu se zaměřil na sled výsledků experimentů a použil to k plánování dalších. Není to žádný nový, průlomový "výzkum" (zatím), ale všechny úpravy jsou "skutečné", dříve jsem je ručně nenašel a navíc se sčítají a dokonce zlepšily nanochat. Mezi větší věci patří například:
- Všiml si, že můj QKnorm bez parametrů neměl připojený násobič škálování, takže moje pozornost byla příliš rozptýlená. Agent našel násobiče, které ji ostřují a ukazují na budoucí práci.
- Zjistil, že Value Embeddings opravdu vyhovují regularizaci a já jsem žádnou neaplikoval (ups).
- Zjistil, že moje pásmová pozornost byla příliš konzervativní (zapomněl jsem ji naladit).
- Zjistil, že AdamW bety byly všechny rozbité.
- Ladil harmonogram úbytku hmotnosti.
- Ladil inicializaci sítě.
A to je navíc ke všemu ladění, které jsem už dělal po delší dobu. Přesný commit je zde, z tohoto "kola 1" automatického výzkumu. Zahájím "druhé kolo" a současně se podívám, jak může více agentů spolupracovat na odemknutí paralelismu.
Všechny LLM Frontier Labs to dělají. Je to finální souboj s bossem. Samozřejmě je to mnohem složitější ve velkém měřítku – nemáte jen jeden vlak. Py-soubor na ladění. Ale dělat to je "jen inženýrství" a bude to fungovat. Vytvoříte roj agentů, necháte je spolupracovat na ladění menších modelů, propagujete nejperspektivnější nápady na stále větší měřítka a lidé (volitelně) přispívají na okrajích.
A obecněji, *jakákoliv metrika, na které vám záleží a která je rozumně efektivní na vyhodnocení (nebo má efektivnější proxy metriky, například trénování menší sítě), může být automaticky prozkoumána agentním rojem. Stojí za to přemýšlet, jestli do této kategorie také nespadá váš problém.

445
Projekt "autoresearch" jsem zabalil do nového samostatného minimálního repozitáře, pokud by si lidé chtěli zahrát o víkendu. V podstatě jde o tréninkové jádro nanochat LLM zredukované na verzi s jedním GPU a jedním souborem ~630 řádků kódu, pak:
- člověk iteruje na zadání (.md)
- AI agent iteruje na tréninkovém kódu (.py)
Cílem je inženýrsky nasměrovat své agenty tak, aby dělali nejrychlejší výzkumný pokrok neomezeně dlouho a bez vašeho zapojení. Na obrázku je každý bod kompletní tréninkový běh LLM, který trvá přesně 5 minut. Agent pracuje v autonomní smyčce na větvi funkcí git a shromažďuje git commity do trénovacího skriptu, jakmile najde lepší nastavení (s menšími ztrátami validace na konci) architektury neuronové sítě, optimalizátoru, všech hyperparametrů atd. Můžete si představit porovnávat pokrok výzkumu různých zadání, různých agentů atd.
Částečně kód, částečně sci-fi a špetka psychózy :)

1,43K
Top
Hodnocení
Oblíbené
