跳轉至主要內容
行情
掃鏈
策略
追蹤
追蹤聰明錢地址,實時監控動態
跟單
探索鏈上交易,一鍵跟單獲取收益
信號
關注聰明錢信號,發現早期機會
兌換
資產
邀請計劃
Onchain OS
開發者中心
文檔
API Key 管理
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
區塊鏈瀏覽器
更多
DeFi
市場
安全中心
Boost
X Launch
參與 X Launch,搶先賺新幣
X Campaign
參與活動,贏取豐厚獎勵
獎勵中心
領取獎勵和空投
預警
語言
貨幣
DEX 功能
顏色設置
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
學院
幫助中心
返回
自動翻譯代幣名稱
自動翻譯 X 內容
懸停顯示代幣卡片
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-4.3%
USELESS
0.00%
IKUN
-3.58%
gib
+2.03%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-0.73%
ALON
-3.63%
LAUNCHCOIN
-5.95%
GOONC
-5.2%
KLED
-6.25%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.44%
Boopa
-1.12%
PORK
0.00%
主頁
Andrej Karpathy
我喜歡訓練大型深度神經網路。曾任 AI @ Tesla 董事、創始團隊 @ OpenAI、博士 @ 史丹佛。
查看原文
Andrej Karpathy
3月10日 06:28
三天前,我讓自動研究調整 nanochat 約兩天,使用 depth=12 模型。它發現了約 20 個改變,改善了驗證損失。我昨天測試了這些改變,所有改變都是累加的,並且轉移到了更大的 (depth=24) 模型上。將所有這些改變堆疊起來,今天我測量到排行榜的 "Time to GPT-2" 從 2.02 小時降至 1.80 小時(約 11% 的改善),這將成為新的排行榜條目。所以,是的,這些是真正的改進,並且它們確實產生了實際的差異。我對我第一次天真的嘗試已經在我認為已經相當手動調整良好的項目上運作得如此好感到有些驚訝。 這對我來說是第一次,因為我非常習慣手動進行神經網絡訓練的迭代優化。你提出想法,實施它們,檢查它們是否有效(更好的驗證損失),根據這些想法提出新想法,閱讀一些論文以獲取靈感,等等。這是我每天工作了 20 年的基本內容。看到代理人獨立完成整個工作流程,並且在大約 700 次改變中自主運作,真是太瘋狂了。它真的查看了實驗結果的序列,並利用這些結果來計劃下一步。這還不是新穎的、突破性的 "研究"(還不是),但所有的調整都是 "真實的",我之前並沒有手動找到它們,並且它們堆疊起來,實際上改善了 nanochat。在更大的事情中,例如: - 它注意到我無參數的 QKnorm 沒有附加縮放器乘數,因此我的注意力過於分散。代理人找到乘數來使其更清晰,指向未來的工作。 - 它發現價值嵌入非常喜歡正則化,而我沒有應用任何(哎呀)。 - 它發現我的帶狀注意力過於保守(我忘了調整它)。 - 它發現 AdamW 的 beta 全部搞砸了。 - 它調整了權重衰減計劃。 - 它調整了網絡初始化。 這是在我已經花了相當多時間進行的所有調整之上。具體的提交在這裡,來自這次 "第一輪" 的自動研究。我將啟動 "第二輪",並且同時我在考慮多個代理人如何協作以解鎖並行性。 所有 LLM 前沿實驗室都會這樣做。這是最終的 Boss 戰。當然,這在規模上要複雜得多 - 你不僅僅有一個單一的 train.py 文件可以調整。但這樣做 "只是工程",並且它會奏效。你啟動一群代理人,讓他們協作調整較小的模型,將最有前途的想法推廣到越來越大的規模,並且人類(可選)在邊緣貢獻。 更一般地說,*任何* 你關心的指標,只要評估起來相對高效(或有更高效的代理指標,例如訓練較小的網絡)都可以由代理人群進行自動研究。值得思考的是,你的問題是否也屬於這個範疇。
404
Andrej Karpathy
3月8日 03:53
我將 "autoresearch" 專案打包成一個新的自包含的最小化倉庫,如果大家想在週末玩玩。它基本上是 nanochat LLM 訓練核心,簡化為單 GPU 的一個檔案版本,大約 630 行代碼,然後: - 人類在提示 (.md) 上進行迭代 - AI 代理在訓練代碼 (.py) 上進行迭代 目標是設計你的代理,使其能夠無限快速地推進研究,而不需要你自己的參與。在圖片中,每個點都是一個完整的 LLM 訓練運行,持續正好 5 分鐘。代理在 git 功能分支上以自主循環工作,並在找到更好的設置(最終的驗證損失更低)時,將 git 提交累積到訓練腳本中,這些設置包括神經網絡架構、優化器、所有超參數等。你可以想像比較不同提示、不同代理等的研究進展。 部分代碼、部分科幻,還有一點精神病 :)
1.38K
熱門
排行
收藏