🚨 A NVIDIA acabou de lançar um plano para treinar modelos de IA com trilhões de parâmetros. E explica discretamente como a próxima geração de modelos vai escalar muito além dos LLMs atuais. O artigo apresenta um sistema para treinamento de modelos Mistura de Especialistas (MoE) usando o Núcleo Megatron, a mesma família de infraestruturas usada para treinar alguns dos maiores modelos do mundo. A ideia principal por trás do MoE é simples, mas poderosa: Em vez de ativar todo o modelo para cada token, o sistema direciona cada token para apenas alguns "especialistas" especializados. Isso significa que você pode escalar os parâmetros totais massivamente sem aumentar o cálculo para cada token. Em teoria, isso te dá: • Capacidade de trilhões de parâmetros • Computação em nível de modelo denso por token • Ganhos massivos de eficiência Mas, na prática, isso quebra tudo. Treinar modelos MoE cria um pesadelo em três camadas de sistemas: Memória. Comunicação. Computação. Otimize um e você embate os outros. A solução da NVIDIA é essencialmente um co-design full-stack de todo o pipeline de treinamento. Eles introduziram múltiplas otimizações em nível de sistema: ...