MIT только что опубликовал статью, в которой тихо объясняется, почему рассуждения LLM сталкиваются с преградой и как их преодолеть. Обычная история заключается в том, что модели терпят неудачу в сложных задачах, потому что им не хватает масштаба, данных или интеллекта. Эта статья утверждает нечто более структурное: модели перестают улучшаться, потому что сигнал обучения исчезает. Как только задача становится слишком сложной, уровень успеха стремится к нулю, обучение с подкреплением не имеет ничего для оптимизации, и рассуждения застаиваются. Неудача не когнитивная, а педагогическая. Авторы предлагают простую, но радикальную переоценку. Вместо того чтобы спрашивать, как заставить модели решать более сложные задачи, они спрашивают, как модели могут генерировать задачи, которые обучают их. Их система, SOAR, делит одну предобученную модель на две роли: студента, который пытается решить чрезвычайно сложные целевые задачи, и учителя, который генерирует новые учебные задачи. Загвоздка в том, что учитель не вознаграждается за создание умных или реалистичных вопросов. Он вознаграждается только в том случае, если производительность студента улучшается по фиксированному набору реальных оценочных задач. Никакого улучшения — ноль вознаграждения. Этот стимул меняет все. Учитель учится генерировать промежуточные, ступенчатые задачи, которые находятся прямо на границе текущих возможностей студента. Эти задачи не являются упрощенными версиями целевой задачи, и, что примечательно, они даже не требуют правильных решений. Важно то, что их структура заставляет студента практиковать правильный вид рассуждений, позволяя сигналу градиента возникать даже тогда, когда прямая поддержка терпит неудачу. Экспериментальные результаты делают это painfully clear. На контрольных точках, где модели начинают с нулевым успехом, а стандартное обучение с подкреплением полностью вымирает, SOAR разрывает мертвую точку и постепенно улучшает производительность. Модель выходит за пределы обучаемости не благодаря более глубокому мышлению, а благодаря созданию лучшей учебной среды для себя. Глубокий вывод неудобен. Многие предполагаемые "ограничения рассуждений" могут вовсе не быть ограничениями интеллекта. Это артефакты учебных установок, которые предполагают, что мир предоставляет обучаемые задачи бесплатно. Эта статья предполагает, что если модели могут формировать свою собственную учебную программу, то плато рассуждений становятся инженерными проблемами, а не фундаментальными барьерами. Никаких новых архитектур, никаких дополнительных человеческих данных, никаких больших моделей. Просто сдвиг в том, что мы вознаграждаем: прогресс в обучении вместо ответов.