Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 A NVIDIA acaba de lançar um plano para treinar modelos de IA com trilhões de parâmetros.
E explica discretamente como a próxima geração de modelos irá escalar muito além dos LLMs de hoje.
O artigo apresenta um sistema para treinar modelos Mixture-of-Experts (MoE) usando o Megatron Core, a mesma família de infraestrutura utilizada para treinar alguns dos maiores modelos do mundo.
A ideia chave por trás do MoE é simples, mas poderosa:
Em vez de ativar todo o modelo para cada token, o sistema direciona cada token apenas para alguns “especialistas” especializados.
Isso significa que você pode escalar o total de parâmetros de forma massiva sem aumentar o cálculo para cada token.
Em teoria, isso lhe dá:
• Capacidade de trilhões de parâmetros
• Cálculo a nível de modelo denso por token
• Ganhos de eficiência massivos
Mas na prática, isso quebra tudo.
Treinar modelos MoE cria um pesadelo em três camadas de sistemas:
Memória. Comunicação. Computação.
Otimizar uma e você estrangula as outras.
A solução da NVIDIA é essencialmente um co-design de pilha completa de todo o pipeline de treinamento.
Eles introduziram múltiplas otimizações a nível de sistema:
...

Top
Classificação
Favoritos
