Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Îmi place să antrenez rețele neuronale mari și profunde. Anterior director AI @ Tesla, echipa fondatoare @ OpenAI, PhD @ Stanford.
Acum trei zile am renunțat la autoresearch tuning nanochat timp de ~2 zile pe Depth=12 model. A găsit ~20 de modificări care au îmbunătățit pierderea de validare. Am testat aceste modificări ieri și toate au fost aditive și transferate pe modele mai mari (adâncime=24). Adunând toate aceste schimbări, astăzi am măsurat că "Timpul până la GPT-2" din clasament scade de la 2,02 ore la 1,80 ore (~11% îmbunătățire), aceasta va fi noua intrare în clasament. Deci da, acestea sunt îmbunătățiri reale și fac o diferență reală. Sunt puțin surprins că prima mea încercare naivă a funcționat deja atât de bine, pe lângă ceea ce credeam că este deja un proiect destul de bine reglat manual.
Este o premieră pentru mine, deoarece sunt foarte obișnuit să fac optimizarea iterativă a antrenamentului rețelelor neuronale manual. Vii cu idei, le implementezi, verifici dacă funcționează (o pierdere de validare mai bună), vii cu idei noi pe baza lor, citești câteva articole pentru inspirație etc. Aceasta este pâinea și untul a ceea ce fac zilnic timp de două decenii. Să vezi agentul făcând tot acest flux de lucru de la un capăt la altul și de unul singur, în timp ce a gestionat autonom aproximativ 700 de modificări, este uimitor. A analizat cu adevărat succesiunea rezultatelor experimentelor și a folosit asta pentru a planifica următoarele. Nu este o "cercetare" nouă sau revoluționară (încă), dar toate ajustările sunt "reale", nu le-am găsit manual înainte și se cumulează și chiar au îmbunătățit nanochat. Printre lucrurile mai importante, de exemplu:
- A observat o scăpare că QKnorm-ul meu fără parametri nu avea un multiplicator de scaler atașat, așa că atenția mea era prea difuză. Agentul a găsit multiplicatori pentru a o ascuți, indicând lucrări viitoare.
- S-a constatat că Value Embedding-urile chiar apreciază regularizarea și nu aplicam niciuna (ups).
- A constatat că atenția mea în bandă era prea conservatoare (am uitat să-l acordez).
- S-a constatat că beta-urile AdamW erau toate stricate.
- A ajustat programul de scădere a greutății.
- A reglat inițializarea rețelei.
Asta pe lângă toate acordajele pe care le-am făcut deja de-a lungul unui timp. Commiterea exactă este aici, din această "rundă 1" de autocercetare. Voi începe "runda 2", iar în paralel analizez cum mai mulți agenți pot colabora pentru a debloca paralelismul.
Toate laboratoarele LLM Frontier fac asta. Este lupta cu boss-ul final. Desigur, este mult mai complex la scară – nu ai doar un singur tren. Fișier PY de reglat. Dar să faci asta este "doar inginerie" și va funcționa. Formezi un roi de agenți, îi pui să colaboreze pentru a ajusta modele mai mici, promovezi cele mai promițătoare idei la scară tot mai mare, iar oamenii (opțional) contribuie la margini.
Și, mai general, *orice* metrică care te interesează și care este destul de eficientă de evaluat (sau care are indicatori proxy mai eficienți, cum ar fi antrenarea unei rețele mai mici), poate fi autocercetată de un roi de agenți. Merită să te gândești dacă problema ta se încadrează și ea în această categorie.

443
Am împachetat proiectul de "autocercetare" într-un nou depozit minimal autonom, dacă oamenii ar dori să joace în weekend. Practic, este un nucleu de antrenament LLM nanochat, redus la o singură versiune cu un singur GPU, un singur fișier, de aproximativ 630 de linii de cod, apoi:
- omul itera pe prompt (.md)
- agentul AI itera codul de antrenament (.py)
Scopul este să-ți proiectezi agenții să facă cel mai rapid progres în cercetare, pe termen nelimitat și fără implicarea ta. În imagine, fiecare punct este o rundă completă de antrenament LLM care durează exact 5 minute. Agentul funcționează într-un ciclu autonom pe o ramură de caracteristică git și acumulează commit-uri git în scriptul de antrenament pe măsură ce găsește setări mai bune (cu pierdere mai mică de validare până la final) ale arhitecturii rețelei neuronale, optimizatorului, tuturor hiperparametrilor etc. Îți poți imagina compararea progresului cercetării diferitelor prompturi, agenți diferiți etc.
Parțial cod, parțial SF și un strop de psihoză :)

1,42K
Limită superioară
Clasament
Favorite
