Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fyzik, zakladatel umělé inteligence, Manifold Podcast
Je úžasné se dnes setkat se zakladatelem!
Wiki: Tiancheng Lou (čínsky: Lou Tiancheng; pinyin: Lóu Tiānchéng; narozen 1986) je čínský podnikatel, který je spoluzakladatelem a hlavním technologickým ředitelem společnosti zabývající se technologií autonomních vozidel. [1] Je také soutěžním programátorem, jehož úspěchy zahrnují vítězství v Google Code Jam dvakrát v letech 2008 a 2009, vítězství v Topcoder Open Marathonu v roce 2015 a vítězství v roce 2004 Mezinárodní olympiádu v informatice, kde skončil třetí celkově. [1] [2] Co se týče peněžních odměn získaných ve velkých soutěžích, Lou je v současnosti nejúspěšnějším soutěžním programátorem z Číny.

38
Autonomní AI inženýr?

Andrej Karpathy10. 3. 06:28
Před třemi dny jsem opustil autoresearch tuning nanochat na ~2 dny na modelu depth=12. Zjistil ~20 změn, které zlepšily ztrátu validace. Tyto změny jsem testoval včera a všechny byly aditivní a přeneseny do větších (hloubka=24) modelů. Když všechny tyto změny shrnu, dnes jsem změřil, že "Čas do GPT-2" v žebříčku klesl z 2,02 hodiny na 1,80 hodiny (~11% zlepšení), a toto bude nový záznam v žebříčku. Takže ano, jsou to skutečné zlepšení a skutečně mají význam. Jsem mírně překvapený, že můj úplně první naivní pokus už tak dobře fungoval navíc k tomu, co jsem považoval za poměrně ručně dobře naladěný projekt.
Je to pro mě poprvé, protože jsem velmi zvyklý provádět iterativní optimalizaci tréninku neuronových sítí ručně. Přicházíte s nápady, realizujete je, kontrolujete, jestli fungují (lepší ztráta validace), vymýšlíte nové nápady na základě toho, čtete nějaké články pro inspiraci atd. To je základ toho, co dělám denně už dvě desetiletí. Vidět agenta, jak dělá celý tento pracovní postup od začátku do konce a sám, zatímco zvládl přibližně 700 změn autonomně, je šílené. Opravdu se zaměřil na sled výsledků experimentů a použil to k plánování dalších. Není to žádný nový, průlomový "výzkum" (zatím), ale všechny úpravy jsou "skutečné", dříve jsem je ručně nenašel a navíc se sčítají a dokonce zlepšily nanochat. Mezi větší věci patří například:
- Všiml si, že můj QKnorm bez parametrů neměl připojený násobič škálování, takže moje pozornost byla příliš rozptýlená. Agent našel násobiče, které ji ostřují a ukazují na budoucí práci.
- Zjistil, že Value Embeddings opravdu vyhovují regularizaci a já jsem žádnou neaplikoval (ups).
- Zjistil, že moje pásmová pozornost byla příliš konzervativní (zapomněl jsem ji naladit).
- Zjistil, že AdamW bety byly všechny rozbité.
- Ladil harmonogram úbytku hmotnosti.
- Ladil inicializaci sítě.
A to je navíc ke všemu ladění, které jsem už dělal po delší dobu. Přesný commit je zde, z tohoto "kola 1" automatického výzkumu. Zahájím "druhé kolo" a současně se podívám, jak může více agentů spolupracovat na odemknutí paralelismu.
Všechny LLM Frontier Labs to dělají. Je to finální souboj s bossem. Samozřejmě je to mnohem složitější ve velkém měřítku – nemáte jen jeden vlak. Py-soubor na ladění. Ale dělat to je "jen inženýrství" a bude to fungovat. Vytvoříte roj agentů, necháte je spolupracovat na ladění menších modelů, propagujete nejperspektivnější nápady na stále větší měřítka a lidé (volitelně) přispívají na okrajích.
A obecněji, *jakákoliv metrika, na které vám záleží a která je rozumně efektivní na vyhodnocení (nebo má efektivnější proxy metriky, například trénování menší sítě), může být automaticky prozkoumána agentním rojem. Stojí za to přemýšlet, jestli do této kategorie také nespadá váš problém.

369
Mnohem snazší je implementovat ověřitelné odměny za programování a matematiku než za teoretickou fyziku. Robotika může být další možnost.

Ye Zhang9. 3. 10:46
Myslím, že reálné technologie s ověřitelnými odměnami budou stále důležitější pro posouvání LLM k jejich vlastnímu "AlphaZero momentu". Pravděpodobně začne kódováním a poté se rozšíří do matematiky, fyziky a dalších oblastí, kde se modely mohou samy zkoumat, objevovat řešení mimo distribuci, která si lidé možná nikdy nepředstaví, a ověřovat je pomocí absolutního signálu odměny (0/1).
To mi také připomíná @elonmusk mluvení o budoucnosti, kde by programy mohly být generovány přímo jako binární soubory, aniž by prošly tradičním procesem kompilace. To by mohlo být skutečně možné, pokud by LLM dokázaly generovat binární kód a pak jej přímo spustit na základě ověřitelné odměny.
873
Top
Hodnocení
Oblíbené
