熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我開源了 autokernel -- 自動研究 GPU 核心
你給它任何 pytorch 模型。它會分析模型,找出瓶頸核心,寫出 triton 替代品,並在一夜之間運行實驗。編輯一個文件,基準測試,保留或恢復,無限重複。
與 @karpathy 的自動研究相同的循環,應用於核心優化
95 次實驗。18 TFLOPS → 187 TFLOPS。相較於 cuBLAS 提升 1.31 倍。全自動
9 種核心類型(矩陣乘法、閃存注意力、融合 MLP、層正規化、RMS 正規化、softmax、rope、交叉熵、減少)。安達爾法則決定接下來要優化什麼。在任何加速計算之前進行 5 階段的正確性檢查
代理讀取 program.md("研究組代碼"),編輯、運行,並選擇保留或恢復。每小時約 40 次實驗。過夜約 320 次
隨附自包含的 GPT-2、LLaMA 和 BERT 定義,因此你不需要 transformers 庫即可開始

熱門
排行
收藏
