i open-sourced autokernel -- autoresearch for GPU kernels تعطيه أي نموذج Pytorch. يقوم بتحليل النموذج، ويجد نوى عنق الزجاجة، يكتب بدائل ترايتون، ويجري تجارب طوال الليل. قم بتعديل ملف واحد، ثم اختبار الاختبار، أو الاحتفاظ به أو إرجاعه، وتكرار ذلك إلى الأبد. نفس الحلقة مثل @karpathy الأبحاث التلقائية، مطبقة على تحسين النواة 95 تجربة. 18 TFLOPS → 187 TFLOPS. 1.31x مقابل cuBLAS. جميع المستقلين 9 أنواع نواة (matmul، الانتباه الفلاش، MLP المدمج، Layernorm، RMSNORM، softmax، الحبل، الإنتروبيا المتقاطعة، التقليل). قانون أمدال يقرر ما يجب تحسينه بعد ذلك. فحوصات صحة الخمس مراحل قبل احتساب أي تسريع يقرأ الوكيل program.md (رمز منظمة البحث"), ويعدل ويشغل ويحافظ أو يعيد. ~40 تجربة في الساعة. ~320 ليلة تأتي بتعريفات GPT-2 وLLaMA وBERT المستقلة، لذلك لا تحتاج إلى مكتبة المحولات للبدء