我開源了 autokernel -- 自動研究 GPU 核心 你給它任何 pytorch 模型。它會分析模型,找出瓶頸核心,寫出 triton 替代品,並在一夜之間運行實驗。編輯一個文件,基準測試,保留或恢復,無限重複。 與 @karpathy 的自動研究相同的循環,應用於核心優化 95 次實驗。18 TFLOPS → 187 TFLOPS。相較於 cuBLAS 提升 1.31 倍。全自動 9 種核心類型(矩陣乘法、閃存注意力、融合 MLP、層正規化、RMS 正規化、softmax、rope、交叉熵、減少)。安達爾法則決定接下來要優化什麼。在任何加速計算之前進行 5 階段的正確性檢查 代理讀取 program.md("研究組代碼"),編輯、運行,並選擇保留或恢復。每小時約 40 次實驗。過夜約 320 次 隨附自包含的 GPT-2、LLaMA 和 BERT 定義,因此你不需要 transformers 庫即可開始