Üç gün önce derinlik=12 modelinde ~2 günlüğüne otomatik araştırma ayarlama nanochat'i bıraktım. Doğrulama kaybını iyileştiren ~20 değişiklik buldu. Dün bu değişiklikleri test ettim ve hepsi ekleyiciydi ve daha büyük (derinlik=24) modellere aktarıldı. Tüm bu değişiklikleri bir kenara koyarsak, bugün liderlik tablosunun "GPT-2'ye Zaman"ının 2.02 saatten 1.80 saate düştüğünü ölçtüm; bu yeni liderlik tablosu girişi olacak. Yani evet, bunlar gerçek gelişmeler ve gerçek bir fark yaratıyor. İlk saf denememin zaten bu kadar iyi çalıştığına, zaten oldukça manuel olarak ayarlanmış bir projenin üstünde olmasına hafifçe şaşırdım. Bu benim için bir ilk, çünkü sinir ağı eğitiminin yinelemeli optimizasyonunu manuel yapmaya çok alışkınım. Fikirler ortaya çıkarırsın, uygularsın, işe yarayıp yaramadığını kontrol edersin (daha iyi doğrulama kaybı), buna dayanarak yeni fikirler ortaya çıkarırsın, ilham almak için bazı makaleler okursun vs. vs. Bu, 20 yıldır günlük yaptığım işin temel işi. Ajanın bu iş akışını baştan sona ve tamamen kendi başına yapmasını görmek ve yaklaşık 700 değişikliği kendi başına yönetmek inanılmaz. Deneylerin sonuç sırasına gerçekten baktı ve bunu sonraki deneyleri planlamak için kullandı. Henüz yeni, çığır açan bir "araştırma" değil, ama tüm ayarlamalar "gerçek", daha önce manuel olarak bulamıyordum ve üstelik nanochat'i gerçekten geliştirdi. Daha büyük şeyler arasında örneğin: - Parametresiz QKnorm'umda ölçekleyici çarpanı bağlı olmadığı için dikkatim çok dağınık oldu. Ajan, onu keskinleştirmek için çarpanlar buldu, bu da gelecekteki çalışmalara işaret ediyordu. - Değer Gömülmelerinin gerçekten düzenlenmeyi sevdiğini ve ben hiç uygulamadığımı buldu (hops). - Bantlı dikkatimin çok muhafazakar olduğunu buldu (akort etmeyi unuttum). - AdamW beta karakterlerinin hepsinin karmaşan olduğu ortaya çıktı. - Kilo azalma programını ayarladı. - Ağ başlatmasını ayarladı. Bu, uzun süre boyunca zaten yaptığım tüm akortların üstüne geliyor. Tam olarak karar burada, bu "1. tur" otomatik araştırmadan. "2. tur"a başlayacağım ve paralel olarak birden fazla ajanın paralelliği açmak için nasıl iş birliği yapabileceğine bakıyorum. Tüm LLM frontier laboratuvarları bunu yapacak. Son patron savaşı. Tabii ki ölçekte çok daha karmaşık - sadece tek bir tren yok. Ayarlanacak şekilde py dosyasını ayarlayın. Ama bunu yapmak "sadece mühendislik" ve işe yarayacak. Bir ajan sürüsü yaratıyorsunuz, onları küçük modelleri ayarlamak için iş birliği yapıyorsunuz, en umut vadeden fikirleri giderek daha büyük ölçeklere tanıtıyorsunuz ve insanlar (isteğe bağlı) kenarlarda katkıda bulunuyor. Ve daha genel olarak, değer verdiğiniz ve makul derecede verimli olan (veya daha küçük bir ağ eğitmek gibi daha verimli proxy metrikleri olan) herhangi bir metrik, bir ajan sürüsü tarafından otomatik olarak araştırılabilir. Sorunun da bu kategoriye girip girmediğini düşünmek faydalı olur.