Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fisikawan, Pendiri AI, Podcast Manifold
Insinyur AI otonom?

Andrej Karpathy10 Mar, 06.28
Tiga hari yang lalu saya meninggalkan autoresearch tuning nanochat selama ~2 hari pada model depth=12. Itu menemukan ~20 perubahan yang meningkatkan kehilangan validasi. Saya menguji perubahan ini kemarin dan semuanya bersifat aditif dan ditransfer ke model yang lebih besar (kedalaman = 24). Menumpuk semua perubahan ini, hari ini saya mengukur bahwa "Time to GPT-2" papan peringkat turun dari 2,02 jam menjadi 1,80 jam (peningkatan ~11%), ini akan menjadi entri papan peringkat baru. Jadi ya, ini adalah peningkatan nyata dan mereka membuat perbedaan nyata. Saya sedikit terkejut bahwa upaya naif pertama saya sudah berhasil dengan baik di atas apa yang saya pikir sudah menjadi proyek yang disetel dengan cukup manual dengan baik.
Ini adalah yang pertama bagi saya karena saya sangat terbiasa melakukan optimasi berulang pelatihan jaringan saraf secara manual. Anda datang dengan ide, Anda menerapkannya, Anda memeriksa apakah mereka berhasil (kehilangan validasi yang lebih baik), Anda datang dengan ide-ide baru berdasarkan itu, Anda membaca beberapa makalah untuk inspirasi, dll. Ini adalah roti dan mentega dari apa yang saya lakukan setiap hari selama 2 dekade. Melihat agen melakukan seluruh alur kerja ini secara end-to-end dan dengan sendirinya saat bekerja melalui sekitar 700 perubahan secara mandiri adalah liar. Itu benar-benar melihat urutan hasil eksperimen dan menggunakannya untuk merencanakan yang berikutnya. Ini bukan "penelitian" yang baru dan inovatif (belum), tetapi semua penyesuaian itu "nyata", saya tidak menemukannya secara manual sebelumnya, dan mereka menumpuk dan benar-benar meningkatkan nanochat. Di antara hal-hal yang lebih besar misalnya:
- Itu memperhatikan kelalaian bahwa QKnorm tanpa parameter saya tidak memiliki pengganda scaler yang terpasang, jadi perhatian saya terlalu menyebar. Agen menemukan pengganda untuk mempertajamnya, menunjuk ke pekerjaan di masa depan.
- Ditemukan bahwa Penyematan Nilai benar-benar menyukai regularisasi dan saya tidak menerapkan apa pun (ups).
- Ditemukan bahwa perhatian saya terlalu konservatif (saya lupa menyetelnya).
- Ditemukan bahwa beta AdamW semuanya kacau.
- Ini menyetel jadwal peluruhan berat badan.
- Ini menyetel inisialisasi jaringan.
Ini di atas semua penyetelan yang telah saya lakukan selama waktu yang lama. Komitmen yang tepat ada di sini, dari "putaran 1" penelitian otomatis ini. Saya akan memulai "putaran 2", dan secara paralel saya melihat bagaimana beberapa agen dapat berkolaborasi untuk membuka paralelisme.
Semua laboratorium perbatasan LLM akan melakukan ini. Ini adalah pertempuran bos terakhir. Ini jauh lebih kompleks dalam skala besar tentu saja - Anda tidak hanya memiliki satu kereta. file py untuk menyetel. Tetapi melakukannya adalah "hanya rekayasa" dan itu akan berhasil. Anda memutar segerombolan agen, Anda meminta mereka berkolaborasi untuk menyetel model yang lebih kecil, Anda mempromosikan ide-ide yang paling menjanjikan ke skala yang semakin besar, dan manusia (opsional) berkontribusi di tepi.
Dan secara lebih umum, *setiap * metrik yang Anda pedulikan yang cukup efisien untuk dievaluasi (atau yang memiliki metrik proxy yang lebih efisien seperti melatih jaringan yang lebih kecil) dapat diteliti secara otomatis oleh kawanan agen. Ada baiknya memikirkan apakah masalah Anda juga termasuk dalam ember ini.

362
Jauh lebih mudah untuk menerapkan hadiah yang dapat diverifikasi untuk pengkodean dan matematika daripada untuk fisika teoretis. Robotika mungkin hal berikutnya.

Ye Zhang9 Mar, 10.46
Saya pikir RL dengan hadiah yang dapat diverifikasi akan menjadi semakin penting dalam mendorong LLM menuju "momen AlphaZero" mereka sendiri. Ini kemungkinan akan dimulai dengan pengkodean, kemudian meluas ke matematika, fisika, dan domain lain di mana model dapat mengeksplorasi sendiri, menemukan solusi di luar distribusi yang mungkin tidak pernah dibayangkan manusia, dan memverifikasinya menggunakan sinyal hadiah absolut (0/1).
Ini juga mengingatkan saya pada @elonmusk berbicara tentang masa depan di mana program dapat dihasilkan secara langsung sebagai biner, tanpa melalui proses kompilasi tradisional. Itu mungkin sebenarnya dimungkinkan jika LLM dapat menghasilkan kode biner dan kemudian menjalankannya secara langsung terhadap hadiah yang dapat diverifikasi.
863
Teratas
Peringkat
Favorit



