Отримую задоволення від автодослідження @karpathy. Я сказав Клоду Коду: "Ти головний науковець лабораторії штучного інтелекту з 8 GPU. Ти — Андрій Карпати. Проведіть паралельні експерименти і виріште, що спробувати далі." Він редагував program.md, тривав 11+ годин і завершив 568 експериментів. Кожен експеримент використовує 1 GPU. Кожного раунду «головний науковець» переглядає попередній раунд із 8 результатів і розробляє наступні 8 експериментів. Цікаво спостерігати, як агент Claude, головний науковець, розробив трьохфазну стратегію: Фаза 1. Широке дослідження Ранні раунди охоплюють багато напрямків: архітектуру, оптимізатор, LR, абляції. Фаза 2. Сфокусоване вдосконалення Після того, як легкі перемоги закінчуються, гра виконує глибші свіпи (наприклад, 5 GPU знищують RoPE базові 30k → 500k за один раунд). Фаза 3. Важка валідація Пізніше 50–75% бюджету GPU йде на перевірки дисперсії seed замість нових ідей. Чесно кажучи, мені здається, це вже перебір. Я залишу головного науковця в напрузі, щоб подивитися, чи перейде це на більші моделі і чи перевершить нового переможця таблиці лідерів Андрія "Час до GPT-2".