🚨 NVIDIA только что выпустила план по обучению ИИ-моделей с триллионом параметров. И в нем тихо объясняется, как следующее поколение моделей будет масштабироваться далеко за пределы сегодняшних LLM. В статье представлена система для обучения моделей Mixture-of-Experts (MoE) с использованием Megatron Core, той же инфраструктуры, которая используется для обучения некоторых из крупнейших моделей в мире. Ключевая идея MoE проста, но мощна: Вместо активации всей модели для каждого токена система направляет каждый токен только к нескольким специализированным «экспертам». Это означает, что вы можете масштабировать общее количество параметров значительно, не увеличивая вычисления для каждого токена. В теории это дает вам: • Вместимость в триллион параметров • Вычисления на уровне плотной модели для каждого токена • Огромные приросты эффективности Но на практике это ломает все. Обучение моделей MoE создает кошмар на трех уровнях систем: Память. Связь. Вычисления. Оптимизируйте одно, и вы создаете узкое место для других. Решение NVIDIA по сути представляет собой совместный дизайн всей обучающей цепочки. Они представили несколько оптимизаций на уровне системы: ...