私はAutokernelをオープンソース化しました -- GPUカーネルのためのAutoResearchです どのPytorchモデルでも使えます。モデルのプロファイリング、ボトルネックのカーネルを見つけ、トリトン置換を書き、一晩中実験を実行します。ファイルを1つ編集し、ベンチマークし、保持するか戻し、これを繰り返すだけです。 カーネル最適化に応用されたautoresearchと同じループ@karpathy 95件の実験。18 TFLOPS → 187 TFLOPS。1.31倍とCuBLASの違い。すべて自律的 9種類のカーネルタイプ(matmul、flash attention、fused mlp、layernorm、rmsnorm、softmax、rope、cross entropy、reduce)。アムダールの法則が次に何を最適化するかを決定します。スピードアップがカウントされる前に5段階の正確性チェックを行います エージェントは program.md(「研究機関コード」)を読み、編集し実行し、保持または戻します。~1時間あたり40回の実験。~320 GPT-2、LLaMA、BERTの定義が自己完結型で付属しているので、Transformersライブラリなしで始められます