Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fizician, fondator AI, Manifold Podcast
E minunat să-l întâlnesc pe fondatorul de azi!
Wiki: Tiancheng Lou (chineză: Lou Tiancheng; pinyin: Lóu Tiānchéng; născut în 1986) este un om de afaceri chinez care este cofondator și director tehnologic al , o companie de tehnologie pentru vehicule autonome. [1] Este, de asemenea, un programator competitiv, ale cărui realizări includ câștigarea de două ori a Google Code Jam în 2008 și 2009, câștigarea Topcoder Open Marathon în 2015 și medalia de aur la 2004 Olimpiada Internațională de Informatică, clasându-se pe locul trei la general. [1] [2] În ceea ce privește premiile câștigate în competițiile majore, Lou este în prezent cel mai de succes programator competitiv din China.

8
Inginer AI autonom?

Andrej Karpathy10 mar., 06:28
Acum trei zile am renunțat la autoresearch tuning nanochat timp de ~2 zile pe Depth=12 model. A găsit ~20 de modificări care au îmbunătățit pierderea de validare. Am testat aceste modificări ieri și toate au fost aditive și transferate pe modele mai mari (adâncime=24). Adunând toate aceste schimbări, astăzi am măsurat că "Timpul până la GPT-2" din clasament scade de la 2,02 ore la 1,80 ore (~11% îmbunătățire), aceasta va fi noua intrare în clasament. Deci da, acestea sunt îmbunătățiri reale și fac o diferență reală. Sunt puțin surprins că prima mea încercare naivă a funcționat deja atât de bine, pe lângă ceea ce credeam că este deja un proiect destul de bine reglat manual.
Este o premieră pentru mine, deoarece sunt foarte obișnuit să fac optimizarea iterativă a antrenamentului rețelelor neuronale manual. Vii cu idei, le implementezi, verifici dacă funcționează (o pierdere de validare mai bună), vii cu idei noi pe baza lor, citești câteva articole pentru inspirație etc. Aceasta este pâinea și untul a ceea ce fac zilnic timp de două decenii. Să vezi agentul făcând tot acest flux de lucru de la un capăt la altul și de unul singur, în timp ce a gestionat autonom aproximativ 700 de modificări, este uimitor. A analizat cu adevărat succesiunea rezultatelor experimentelor și a folosit asta pentru a planifica următoarele. Nu este o "cercetare" nouă sau revoluționară (încă), dar toate ajustările sunt "reale", nu le-am găsit manual înainte și se cumulează și chiar au îmbunătățit nanochat. Printre lucrurile mai importante, de exemplu:
- A observat o scăpare că QKnorm-ul meu fără parametri nu avea un multiplicator de scaler atașat, așa că atenția mea era prea difuză. Agentul a găsit multiplicatori pentru a o ascuți, indicând lucrări viitoare.
- S-a constatat că Value Embedding-urile chiar apreciază regularizarea și nu aplicam niciuna (ups).
- A constatat că atenția mea în bandă era prea conservatoare (am uitat să-l acordez).
- S-a constatat că beta-urile AdamW erau toate stricate.
- A ajustat programul de scădere a greutății.
- A reglat inițializarea rețelei.
Asta pe lângă toate acordajele pe care le-am făcut deja de-a lungul unui timp. Commiterea exactă este aici, din această "rundă 1" de autocercetare. Voi începe "runda 2", iar în paralel analizez cum mai mulți agenți pot colabora pentru a debloca paralelismul.
Toate laboratoarele LLM Frontier fac asta. Este lupta cu boss-ul final. Desigur, este mult mai complex la scară – nu ai doar un singur tren. Fișier PY de reglat. Dar să faci asta este "doar inginerie" și va funcționa. Formezi un roi de agenți, îi pui să colaboreze pentru a ajusta modele mai mici, promovezi cele mai promițătoare idei la scară tot mai mare, iar oamenii (opțional) contribuie la margini.
Și, mai general, *orice* metrică care te interesează și care este destul de eficientă de evaluat (sau care are indicatori proxy mai eficienți, cum ar fi antrenarea unei rețele mai mici), poate fi autocercetată de un roi de agenți. Merită să te gândești dacă problema ta se încadrează și ea în această categorie.

367
Este mult mai ușor să implementezi recompense verificabile pentru programare și matematică decât pentru fizica teoretică. Robotica ar putea fi următoarea opțiune.

Ye Zhang9 mar., 10:46
Cred că RL-ul cu recompense verificabile va deveni din ce în ce mai important pentru a împinge LLM-urile spre propriul lor "moment AlphaZero". Probabil va începe cu programarea, apoi se va extinde la matematică, fizică și alte domenii unde modelele se pot auto-explora, pot descoperi soluții în afara distribuției pe care oamenii nu le-ar putea imagina niciodată și le vor verifica folosind un semnal absolut de recompensă (0/1).
Acest lucru îmi amintește și de @elonmusk vorbind despre un viitor în care programele ar putea fi generate direct ca binare, fără a trece prin procesul tradițional de compilare. Acest lucru ar putea fi chiar posibil dacă LLM-urile pot genera cod binar și apoi îl pot executa direct pe baza unei recompense verificabile.
871
Limită superioară
Clasament
Favorite
