DApp Store | Pusat Web3 untuk Event & Game

Topik trending

steve hsu

Fisikawan, Pendiri AI, Podcast Manifold

Insinyur AI otonom?

Tiga hari yang lalu saya meninggalkan autoresearch tuning nanochat selama ~2 hari pada model depth=12. Itu menemukan ~20 perubahan yang meningkatkan kehilangan validasi. Saya menguji perubahan ini kemarin dan semuanya bersifat aditif dan ditransfer ke model yang lebih besar (kedalaman = 24). Menumpuk semua perubahan ini, hari ini saya mengukur bahwa "Time to GPT-2" papan peringkat turun dari 2,02 jam menjadi 1,80 jam (peningkatan ~11%), ini akan menjadi entri papan peringkat baru. Jadi ya, ini adalah peningkatan nyata dan mereka membuat perbedaan nyata. Saya sedikit terkejut bahwa upaya naif pertama saya sudah berhasil dengan baik di atas apa yang saya pikir sudah menjadi proyek yang disetel dengan cukup manual dengan baik. Ini adalah yang pertama bagi saya karena saya sangat terbiasa melakukan optimasi berulang pelatihan jaringan saraf secara manual. Anda datang dengan ide, Anda menerapkannya, Anda memeriksa apakah mereka berhasil (kehilangan validasi yang lebih baik), Anda datang dengan ide-ide baru berdasarkan itu, Anda membaca beberapa makalah untuk inspirasi, dll. Ini adalah roti dan mentega dari apa yang saya lakukan setiap hari selama 2 dekade. Melihat agen melakukan seluruh alur kerja ini secara end-to-end dan dengan sendirinya saat bekerja melalui sekitar 700 perubahan secara mandiri adalah liar. Itu benar-benar melihat urutan hasil eksperimen dan menggunakannya untuk merencanakan yang berikutnya. Ini bukan "penelitian" yang baru dan inovatif (belum), tetapi semua penyesuaian itu "nyata", saya tidak menemukannya secara manual sebelumnya, dan mereka menumpuk dan benar-benar meningkatkan nanochat. Di antara hal-hal yang lebih besar misalnya: - Itu memperhatikan kelalaian bahwa QKnorm tanpa parameter saya tidak memiliki pengganda scaler yang terpasang, jadi perhatian saya terlalu menyebar. Agen menemukan pengganda untuk mempertajamnya, menunjuk ke pekerjaan di masa depan. - Ditemukan bahwa Penyematan Nilai benar-benar menyukai regularisasi dan saya tidak menerapkan apa pun (ups). - Ditemukan bahwa perhatian saya terlalu konservatif (saya lupa menyetelnya). - Ditemukan bahwa beta AdamW semuanya kacau. - Ini menyetel jadwal peluruhan berat badan. - Ini menyetel inisialisasi jaringan. Ini di atas semua penyetelan yang telah saya lakukan selama waktu yang lama. Komitmen yang tepat ada di sini, dari "putaran 1" penelitian otomatis ini. Saya akan memulai "putaran 2", dan secara paralel saya melihat bagaimana beberapa agen dapat berkolaborasi untuk membuka paralelisme. Semua laboratorium perbatasan LLM akan melakukan ini. Ini adalah pertempuran bos terakhir. Ini jauh lebih kompleks dalam skala besar tentu saja - Anda tidak hanya memiliki satu kereta. file py untuk menyetel. Tetapi melakukannya adalah "hanya rekayasa" dan itu akan berhasil. Anda memutar segerombolan agen, Anda meminta mereka berkolaborasi untuk menyetel model yang lebih kecil, Anda mempromosikan ide-ide yang paling menjanjikan ke skala yang semakin besar, dan manusia (opsional) berkontribusi di tepi. Dan secara lebih umum, *setiap * metrik yang Anda pedulikan yang cukup efisien untuk dievaluasi (atau yang memiliki metrik proxy yang lebih efisien seperti melatih jaringan yang lebih kecil) dapat diteliti secara otomatis oleh kawanan agen. Ada baiknya memikirkan apakah masalah Anda juga termasuk dalam ember ini.

Teratas

Peringkat

Favorit