Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jim Fan
Director de robotică NVIDIA și om de știință distins. Co-lider al laboratorului GEAR. Rezolvarea AGI fizică, un motor la un moment dat. Stanford Ph.D. Primul stagiar OpenAI.
Am antrenat un umanoid cu mâini dextere cu 22-DoF să asambleze modele de mașini, să manevreze seringi, să sorteze cărți de poker, să plieze/ruleze cămăși, toate învățate în principal din 20.000+ ore de video uman egocentric fără niciun robot implicat.
Oamenii sunt cea mai scalabilă întruchipare de pe planetă. Am descoperit o lege de scalare log-liniară aproape perfectă (R² = 0,998) între volumul video uman și pierderea din predicția acțiunii, iar această pierdere prezice direct rata de succes a roboților reali.
Roboții umanoizi vor fi scopul final, pentru că au un factor de formă practic, cu o diferență minimă de întrupare față de oameni. Să-i spunem Lecția Amară a hardware-ului robotic: similaritatea cinematică ne permite pur și simplu să redirecționăm mișcarea degetelor umane către articulațiile mâinilor roboților agile. Fără embedding-uri învățate, fără algoritmi de transfer sofisticați. Mișcarea relativă a încheieturii + acțiunile degetelor 22-DoF redirecționate servesc ca un spațiu unificat de acțiune care se desfășoară de la pre-antrenament până la execuția robotului.
Rețeta noastră se numește "EgoScale":
- Înainte de antrenament GR00T N1.5 pe 20.000 de ore de video uman, în mijlocul trenului cu doar 4 ore (!) de date de redare a roboților cu mâinile Sharpa. 54% câștiguri față de antrenamentul de la zero în 5 sarcini extrem de dextere.
- Rezultatul cel mai surprinzător: o *unică* demonstrație teleop este suficientă pentru a învăța o sarcină nemaivăzută până acum. Rețeta noastră permite o eficiență extremă a datelor.
- Deși pre-antrenăm în spațiul articulației mâinii 22-DoF, politica se transferă la un Unitree G1 cu 7-DoF cu mâini tri-degete. Câștiguri de 30%+ față de antrenament doar pe date G1.
Drumul scalabil către dexteritatea roboților nu a fost niciodată mai mult roboți. Întotdeauna am fost noi.
Detalii aprofundate în firul de discuție:
509
Anunțăm DreamDojo: modelul nostru open-source, interactiv, care preia comenzile motoarelor roboților și generează viitorul în pixeli. Fără motor, fără mesh-uri, fără dinamici create manual. Este Simulation 2.0. E timpul ca robotica să ia lecția amară.
Învățarea roboților în lumea reală este limitată de timp, uzură, siguranță și resetări. Dacă vrem ca AI-ul fizic să se miște cu viteză de pre-antrenament, avem nevoie de un simulator care să se adapteze la scara de pre-antrenament cu cât mai puțină inginerie umană posibil.
Principalele noastre perspective: (1) videoclipurile egocentrice umane reprezintă o sursă scalabilă de fizică la persoana întâi; (2) acțiunile latente le fac "lizibile de robot" pe diferite tipuri de hardware; (3) Inferența în timp real deblochează teleop live, evaluarea politicilor și planificarea în timpul testului *înăuntru* unui vis.
Ne antrenăm în prealabil cu 44.000 de ore de videoclipuri umane: ieftine, abundente și colecționate fără niciun robot implicat. Oamenii au explorat deja combinatorica: prindem, turnăm, pliăm, asamblăm, eșuăm, reîncercăm — prin scene aglomerate, puncte de vedere schimbătoare, lumină schimbătoare și lanțuri de sarcini de o oră — la o scară pe care nicio flotă de roboți nu o poate egala. Piesa lipsă: aceste videoclipuri nu au etichete de acțiune. Așadar, introducem acțiuni latente: o reprezentare unificată dedusă direct din videoclipuri care surprinde "ce s-a schimbat între stările lumii" fără a cunoaște hardware-ul de bază. Acest lucru ne permite să ne antrenăm pe orice videoclip la persoana întâi ca și cum ar avea comenzi motorii atașate.
Ca urmare, DreamDojo generalizează zero-shot-ul la obiecte și medii care nu au fost niciodată văzute în niciun set de antrenament al roboților, pentru că oamenii le-au văzut primii.
Apoi, facem post-training pe fiecare robot pentru a se potrivi hardware-ului său specific. Gândește-te la asta ca la o separare a "modului în care arată și se comportă lumea" de "modul în care acționează acest robot anume". Modelul de bază urmează regulile fizice generale, apoi "se fixează" pe mecanicile unice ale robotului. Este cam ca și cum ai încărca un personaj nou și resurse de scenă în Unreal Engine, dar făcut prin gradient descent și generalizează mult dincolo de setul de date post-antrenament.
Un simulator de lume este util doar dacă rulează suficient de repede pentru a închide ciclul. Antrenăm o versiune în timp real a DreamDojo care rulează la 10 FPS, stabilă pentru peste un minut de implementare continuă. Aceasta deblochează posibilități interesante:
- Teleoperație live *înăuntru* un vis. Conectează un controller VR, transmite acțiuni în DreamDojo și teleoperează un robot virtual în timp real. Noi facem o demonstrație pe Unitree G1 cu o cască PICO și o RTX 5090.
- Evaluarea politicilor. Poți compara un punct de control al politicii în DreamDojo în loc de lumea reală. Ratele simulate de succes corelează puternic cu rezultatele din lumea reală – suficient de precise pentru a clasifica punctele de control fără a arde niciun motor.
- Planificare bazată pe modele. Analizează mai multe propuneri de acțiune → simulează-le pe toate în paralel → alege cel mai bun viitor. Obține +17% succes în lumea reală din fabrică la o sarcină de ambalare a fructelor.
Oferim open source la totul!! Greutăți, cod, set de date post-antrenament, set de evaluare și whitepaper cu o mulțime de detalii de reprodus. DreamDojo se bazează pe NVIDIA Cosmos, care este și el open-weight.
2026 este anul World Models pentru AI fizic. Vrem să construiești împreună cu noi. Scalare plăcută!
Linkuri în firul de discuție:
638
Limită superioară
Clasament
Favorite

