Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NVIDIA vient de publier un plan pour entraîner des modèles d'IA à un trillion de paramètres.
Et il explique discrètement comment la prochaine génération de modèles va évoluer bien au-delà des LLM d'aujourd'hui.
Le document introduit un système pour entraîner des modèles Mixture-of-Experts (MoE) en utilisant Megatron Core, la même famille d'infrastructure utilisée pour entraîner certains des plus grands modèles au monde.
L'idée clé derrière MoE est simple mais puissante :
Au lieu d'activer l'ensemble du modèle pour chaque token, le système dirige chaque token vers seulement quelques "experts" spécialisés.
Cela signifie que vous pouvez augmenter massivement le nombre total de paramètres sans augmenter le calcul pour chaque token.
En théorie, cela vous donne :
• Une capacité d'un trillion de paramètres
• Un calcul de niveau modèle dense par token
• Des gains d'efficacité massifs
Mais en pratique, cela casse tout.
L'entraînement des modèles MoE crée un cauchemar à travers trois couches de systèmes :
Mémoire. Communication. Calcul.
Optimisez l'un et vous créez un goulot d'étranglement pour les autres.
La solution de NVIDIA est essentiellement une co-conception complète de l'ensemble du pipeline d'entraînement.
Ils ont introduit plusieurs optimisations au niveau système :
...

Meilleurs
Classement
Favoris
