Olen avoimen lähdekoodin Autokernel -- automaattinen tutkimus GPU-ytimille Voit antaa sille minkä tahansa pytorch-mallin. Se esittelee mallin, löytää pullonkaulan ytimet, kirjoittaa Tritonin korvaajia ja suorittaa kokeita yöllä. Muokkaa yhtä tiedostoa, benchmarkoi, säilytä tai palauta, toista ikuisesti. Sama silmukka kuin @karpathy automaattitutkimuksessa, sovellettuna ytimen optimointiin 95 koetta. 18 TFLOPS → 187 TFLOPS. 1.31x vs cuBLAS. Kaikki autonomiset 9 ydintyyppiä (matmul, flash attention, fused mlp, layernorm, rmsnorm, softmax, rope, crossentropy, reduce). Amdahlin laki päättää, mitä optimoidaan seuraavaksi. 5-vaiheiset oikeellisuustarkistukset ennen kuin kiihdytys lasketaan Agentti lukee program.md ("tutkimusorganisaation koodi"), muokkaa suorituksia ja joko säilyttää tai palauttaa. ~40 koetta tunnissa. ~320 yön yli sisältää itsenäiset GPT-2-, LLaMA- ja BERT-määritelmät, joten et tarvitse transformers-kirjastoa aloittaaksesi