I open-sourced autokernel — autoresearch для kernels GPU Ти даєш їй будь-яку модель Pytorch. Він профілює модель, знаходить вузькі місця, записує заміни тритону та проводить експерименти протягом ночі. Редагуйте один файл, бенчмаркуйте, зберігайте або відновлюйте, повторюйте вічно. Той самий цикл, що й @karpathy autoresearch, застосований до оптимізації ядра 95 експериментів. 18 TFLOPS → 187 TFLOPS. 1.31x проти cuBLAS. всі автономні 9 типів ядер (Matmul, Flash Attention, Fused MLP, Layernorm, RMSNORM, Softmax, Rope, Cross Entropy, Reduce). Закон Амдала визначає, що оптимізувати далі. 5-ступеневі перевірки коректності перед будь-яким прискоренням Агент читає program.md («код дослідницької організації»), редагує і виконує і або зберігає, або повертає назад. ~40 експериментів на годину. ~320 за ніч постачається з автономними визначеннями GPT-2, LLaMA та BERT, тому для початку не потрібна бібліотека трансформерів