Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 A NVIDIA acabou de lançar um plano para treinar modelos de IA com trilhões de parâmetros.
E explica discretamente como a próxima geração de modelos vai escalar muito além dos LLMs atuais.
O artigo apresenta um sistema para treinamento de modelos Mistura de Especialistas (MoE) usando o Núcleo Megatron, a mesma família de infraestruturas usada para treinar alguns dos maiores modelos do mundo.
A ideia principal por trás do MoE é simples, mas poderosa:
Em vez de ativar todo o modelo para cada token, o sistema direciona cada token para apenas alguns "especialistas" especializados.
Isso significa que você pode escalar os parâmetros totais massivamente sem aumentar o cálculo para cada token.
Em teoria, isso te dá:
• Capacidade de trilhões de parâmetros
• Computação em nível de modelo denso por token
• Ganhos massivos de eficiência
Mas, na prática, isso quebra tudo.
Treinar modelos MoE cria um pesadelo em três camadas de sistemas:
Memória. Comunicação. Computação.
Otimize um e você embate os outros.
A solução da NVIDIA é essencialmente um co-design full-stack de todo o pipeline de treinamento.
Eles introduziram múltiplas otimizações em nível de sistema:
...

Melhores
Classificação
Favoritos
