Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
🚨 NVIDIA ha appena rilasciato un progetto per l'addestramento di modelli AI con trilioni di parametri.
E spiega silenziosamente come la prossima generazione di modelli scalerà ben oltre gli LLM di oggi.
Il documento introduce un sistema per l'addestramento di modelli Mixture-of-Experts (MoE) utilizzando Megatron Core, la stessa famiglia di infrastrutture utilizzata per addestrare alcuni dei modelli più grandi al mondo.
L'idea chiave dietro MoE è semplice ma potente:
Invece di attivare l'intero modello per ogni token, il sistema instrada ogni token solo a pochi "esperti" specializzati.
Ciò significa che puoi scalare enormemente il numero totale di parametri senza aumentare il calcolo per ogni token.
In teoria, questo ti dà:
• Capacità da trilioni di parametri
• Calcolo a livello di modello denso per token
• Guadagni di efficienza massivi
Ma nella pratica, rompe tutto.
L'addestramento dei modelli MoE crea un incubo attraverso tre strati di sistema:
Memoria. Comunicazione. Computazione.
Ottimizza uno e blocchi gli altri.
La soluzione di NVIDIA è essenzialmente un co-design full-stack dell'intero pipeline di addestramento.
Hanno introdotto molteplici ottimizzazioni a livello di sistema:
...

Principali
Ranking
Preferiti
