🚨 NVIDIA acaba de lanzar un plano para entrenar modelos de IA con un billón de parámetros. Y explica en silencio cómo la próxima generación de modelos escalará mucho más allá de los LLM actuales. El artículo presenta un sistema para entrenar modelos de Mezcla de Expertos (MoE) utilizando el Núcleo Megatron, la misma familia de infraestructuras que se utiliza para entrenar algunos de los modelos más grandes del mundo. La idea clave detrás de MoE es simple pero poderosa: En lugar de activar el modelo completo para cada token, el sistema enruta cada token solo a unos pocos "expertos" especializados. Eso significa que puedes escalar los parámetros totales masivamente sin aumentar el cálculo para cada token. En teoría, esto te da: • Capacidad de parámetros de billones • Cálculo a nivel de modelo denso por token • Grandes ganancias de eficiencia Pero en la práctica, lo rompe todo. Entrenar modelos MoE crea una pesadilla en tres capas de sistema: Memoria. Comunicación. Computación. Optimiza uno y cuello de botella a los demás. La solución de NVIDIA es esencialmente un co-diseño full-stack de toda la cadena de entrenamiento. Introdujeron múltiples optimizaciones a nivel de sistema: ...