Весело проводить время с автопоиском @karpathy. Я сказал Claude Code: "Ты главный научный сотрудник лаборатории ИИ с 8 GPU. Ты Андрея Карпаты. Проводите параллельные эксперименты и решайте, что попробовать дальше." Он отредактировал program.md, работал более 11 часов и завершил 568 экспериментов. Каждый эксперимент использует 1 GPU. Каждый раунд "главный научный сотрудник" просматривает предыдущий раунд из 8 результатов и разрабатывает следующие 8 экспериментов. Интересно наблюдать, как агент Claude, главный научный сотрудник, разработал стратегию из 3 фаз: Фаза 1. Широкое исследование Ранние раунды исследуют множество осей: архитектура, оптимизатор, LRs, абляции. Фаза 2. Сфокусированная доработка После того как легкие победы иссякают, он проводит более глубокие проверки (например, 5 GPU, охватывающих RoPE базу 30k → 500k за один раунд). Фаза 3. Тщательная валидация Позже 50–75% бюджета GPU уходит на проверки вариации семян вместо новых идей. Честно говоря, я считаю это избыточным. Я продолжу работу главного научного сотрудника, чтобы увидеть, сможет ли он перенести это на более крупные модели и обойти нового победителя в таблице лидеров "Время до GPT-2" Андрея.