I open-sourced autokernel -- AutoResearch para kernels de GPU Le das a cualquier modelo de Pytorch. Perfila el modelo, encuentra los núcleos de cuello de botella, escribe reemplazos de Triton y ejecuta experimentos durante la noche. editar un archivo, hacer benchmark, conservarlo o revertirlo, y repite para siempre. Mismo bucle que @karpathy autoinvestigación, aplicado a la optimización del kernel 95 experimentos. 18 TFLOPS → 187 TFLOPS. 1.31x vs cuBLAS. todos autónomos 9 tipos de núcleo (Matmul, Flash Attention, MLP fusionado, Layernorm, RMMnorm, softmax, rope, entropía cruzada, reduce). La ley de Amdahl decide qué optimizar a continuación. Comprobaciones de corrección en 5 etapas antes de que cuente cualquier aceleración El agente lee program.md (el "código de la organización de investigación"), edita las ejecuciones y lo mantiene o revierte. ~40 experimentos/hora. ~320 durante la noche incluye definiciones autónomas de GPT-2, LLaMA y BERT, así que no necesitas la biblioteca de transformers para empezar