🚨 A NVIDIA acaba de lançar um plano para treinar modelos de IA com trilhões de parâmetros. E explica discretamente como a próxima geração de modelos irá escalar muito além dos LLMs de hoje. O artigo apresenta um sistema para treinar modelos Mixture-of-Experts (MoE) usando o Megatron Core, a mesma família de infraestrutura utilizada para treinar alguns dos maiores modelos do mundo. A ideia chave por trás do MoE é simples, mas poderosa: Em vez de ativar todo o modelo para cada token, o sistema direciona cada token apenas para alguns “especialistas” especializados. Isso significa que você pode escalar o total de parâmetros de forma massiva sem aumentar o cálculo para cada token. Em teoria, isso lhe dá: • Capacidade de trilhões de parâmetros • Cálculo a nível de modelo denso por token • Ganhos de eficiência massivos Mas na prática, isso quebra tudo. Treinar modelos MoE cria um pesadelo em três camadas de sistemas: Memória. Comunicação. Computação. Otimizar uma e você estrangula as outras. A solução da NVIDIA é essencialmente um co-design de pilha completa de todo o pipeline de treinamento. Eles introduziram múltiplas otimizações a nível de sistema: ...