熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
三天前,我讓自動研究調整 nanochat 約兩天,使用 depth=12 模型。它發現了約 20 個改變,改善了驗證損失。我昨天測試了這些改變,所有改變都是累加的,並且轉移到了更大的 (depth=24) 模型上。將所有這些改變堆疊起來,今天我測量到排行榜的 "Time to GPT-2" 從 2.02 小時降至 1.80 小時(約 11% 的改善),這將成為新的排行榜條目。所以,是的,這些是真正的改進,並且它們確實產生了實際的差異。我對我第一次天真的嘗試已經在我認為已經相當手動調整良好的項目上運作得如此好感到有些驚訝。
這對我來說是第一次,因為我非常習慣手動進行神經網絡訓練的迭代優化。你提出想法,實施它們,檢查它們是否有效(更好的驗證損失),根據這些想法提出新想法,閱讀一些論文以獲取靈感,等等。這是我每天工作了 20 年的基本內容。看到代理人獨立完成整個工作流程,並且在大約 700 次改變中自主運作,真是太瘋狂了。它真的查看了實驗結果的序列,並利用這些結果來計劃下一步。這還不是新穎的、突破性的 "研究"(還不是),但所有的調整都是 "真實的",我之前並沒有手動找到它們,並且它們堆疊起來,實際上改善了 nanochat。在更大的事情中,例如:
- 它注意到我無參數的 QKnorm 沒有附加縮放器乘數,因此我的注意力過於分散。代理人找到乘數來使其更清晰,指向未來的工作。
- 它發現價值嵌入非常喜歡正則化,而我沒有應用任何(哎呀)。
- 它發現我的帶狀注意力過於保守(我忘了調整它)。
- 它發現 AdamW 的 beta 全部搞砸了。
- 它調整了權重衰減計劃。
- 它調整了網絡初始化。
這是在我已經花了相當多時間進行的所有調整之上。具體的提交在這裡,來自這次 "第一輪" 的自動研究。我將啟動 "第二輪",並且同時我在考慮多個代理人如何協作以解鎖並行性。
所有 LLM 前沿實驗室都會這樣做。這是最終的 Boss 戰。當然,這在規模上要複雜得多 - 你不僅僅有一個單一的 train.py 文件可以調整。但這樣做 "只是工程",並且它會奏效。你啟動一群代理人,讓他們協作調整較小的模型,將最有前途的想法推廣到越來越大的規模,並且人類(可選)在邊緣貢獻。
更一般地說,*任何* 你關心的指標,只要評估起來相對高效(或有更高效的代理指標,例如訓練較小的網絡)都可以由代理人群進行自動研究。值得思考的是,你的問題是否也屬於這個範疇。

熱門
排行
收藏
