一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我開源了 autokernel -- 自動研究 GPU 核心你給它任何 pytorch 模型。它會分析模型，找出瓶頸核心，寫出 triton 替代品，並在一夜之間運行實驗。編輯一個文件，基準測試，保留或恢復，無限重複。與 @karpathy 的自動研究相同的循環，應用於核心優化 95 次實驗。18 TFLOPS → 187 TFLOPS。相較於 cuBLAS 提升 1.31 倍。全自動 9 種核心類型（矩陣乘法、閃存注意力、融合 MLP、層正規化、RMS 正規化、softmax、rope、交叉熵、減少）。安達爾法則決定接下來要優化什麼。在任何加速計算之前進行 5 階段的正確性檢查代理讀取 program.md（"研究組代碼"），編輯、運行，並選擇保留或恢復。每小時約 40 次實驗。過夜約 320 次隨附自包含的 GPT-2、LLaMA 和 BERT 定義，因此你不需要 transformers 庫即可開始