Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Три дня назад я оставил автоисследование настройки nanochat на ~2 дня с моделью depth=12. Оно нашло ~20 изменений, которые улучшили валидационную потерю. Я протестировал эти изменения вчера, и все они были аддитивными и перенесены на более крупные модели (depth=24). Сложив все эти изменения, сегодня я измерил, что время до "GPT-2" на лидерборде снизилось с 2.02 часов до 1.80 часов (~11% улучшение), это будет новая запись в лидерборде. Так что да, это реальные улучшения, и они действительно имеют значение. Я слегка удивлён, что моя первая наивная попытка уже так хорошо сработала на том, что, как я думал, уже было довольно хорошо настроенным проектом вручную.
Это впервые для меня, потому что я очень привык к итеративной оптимизации обучения нейронных сетей вручную. Вы придумываете идеи, реализуете их, проверяете, работают ли они (лучше валидационная потеря), придумываете новые идеи на основе этого, читаете некоторые статьи для вдохновения и т.д. Это основа того, что я делаю ежедневно на протяжении 20 лет. Видеть, как агент выполняет весь этот рабочий процесс от начала до конца и полностью самостоятельно, обрабатывая примерно 700 изменений автономно, — это дико. Он действительно смотрел на последовательность результатов экспериментов и использовал это для планирования следующих. Это не новаторское, прорывное "исследование" (пока), но все корректировки "реальны", я не находил их вручную ранее, и они складываются и действительно улучшили nanochat. Среди более крупных вещей, например:
- Он заметил упущение, что мой безпараметрический QKnorm не имел прикрепленного множителя масштабирования, поэтому мое внимание было слишком размытым. Агент нашел множители, чтобы уточнить его, указывая на будущую работу.
- Он обнаружил, что Value Embeddings действительно нуждаются в регуляризации, а я не применял никакой (упс).
- Он обнаружил, что мое бандированное внимание было слишком консервативным (я забыл его настроить).
- Он обнаружил, что бета-коэффициенты AdamW были все перепутаны.
- Он настроил график уменьшения веса.
- Он настроил инициализацию сети.
Это поверх всех настроек, которые я уже сделал за довольно продолжительное время. Точный коммит здесь, из этого "раунда 1" автоисследования. Я собираюсь начать "раунд 2", и параллельно я смотрю, как несколько агентов могут сотрудничать для разблокировки параллелизма.
Все лаборатории LLM frontier будут это делать. Это финальная битва с боссом. Конечно, это гораздо более сложно в масштабе - у вас нет просто одного файла train.py для настройки. Но сделать это - "просто инженерия", и это сработает. Вы запускаете рой агентов, заставляете их сотрудничать для настройки меньших моделей, продвигаете самые многообещающие идеи к все более крупным масштабам, а люди (по желанию) вносят свой вклад на краях.
И более общим образом, *любой* метрика, которая вам важна и которую разумно оценивать (или которая имеет более эффективные прокси-метрики, такие как обучение меньшей сети), может быть автоисследована роем агентов. Стоит подумать, попадает ли ваша проблема в эту категорию тоже.

Топ
Рейтинг
Избранное
