🚨 NVIDIA tocmai a lansat un plan pentru antrenarea modelelor AI cu trilioane de parametri. Și explică discret cum următoarea generație de modele va scala mult dincolo de LLM-urile de astăzi. Lucrarea introduce un sistem pentru antrenarea modelelor Mix-of-Experts (MoE) folosind Megatron Core, aceeași familie de infrastructuri folosite pentru antrenarea unora dintre cele mai mari modele din lume. Ideea cheie din spatele MoE este simplă, dar puternică: În loc să activeze întregul model pentru fiecare token, sistemul direcționează fiecare token către doar câțiva "experți" specializați. Asta înseamnă că poți scala masiv parametrii totali fără să crești calculul pentru fiecare token. Teoretic, acest lucru îți oferă: • Capacitate de un trilion de parametri • Calcul la nivel de model dens per token • Câștiguri masive de eficiență Dar în practică, strică totul. Antrenarea modelelor MoE creează un coșmar în trei straturi de sisteme: Memorie. Comunicare. Calcul. Optimizează unul și blochezi celelalte. Soluția NVIDIA este practic co-proiectarea full-stack a întregului flux de antrenament. Au introdus multiple optimizări la nivel de sistem: ...