Ich habe Spaß mit @karpathy’s autoresearch. Ich sagte zu Claude Code: „Du bist der Chefwissenschaftler eines KI-Labors mit 8 GPUs. Du bist Andrej Karpathy. Führe parallele Experimente durch und entscheide, was als Nächstes ausprobiert werden soll.“ Es hat program.md bearbeitet, über 11 Stunden lang ausgeführt und 568 Experimente abgeschlossen. Jedes Experiment verwendet 1 GPU. In jeder Runde überprüft der „Chefwissenschaftler“ die Ergebnisse der vorherigen Runde von 8 und entwirft die nächsten 8 Experimente. Es ist interessant zu sehen, dass der Claude-Agent, der Chefwissenschaftler, eine 3-phasige Strategie entwickelt hat: Phase 1. Breite Exploration Frühe Runden erkunden viele Achsen: Architektur, Optimierer, LRs, Ablationen. Phase 2. Fokussierte Verfeinerung Nachdem die einfachen Gewinne versiegt sind, führt er tiefere Sweepings durch (z. B. 5 GPUs, die RoPE Basis 30k → 500k in einer Runde sweeping). Phase 3. Intensive Validierung Später gehen 50–75 % des GPU-Budgets in die Überprüfung der Seed-Varianz anstelle neuer Ideen. Ich finde, das ist übertrieben, um ehrlich zu sein. Ich werde den Chefwissenschaftler weiterlaufen lassen, um zu sehen, ob es auf größere Modelle übertragbar ist und Andrejs neuen "Time to GPT-2"-Leaderboard-Gewinner schlägt.