La naiba... Microsoft a făcut open source un framework de inferență care rulează un LLM de 100B parametri pe un singur CPU. Se numește BitNet. Și face ceea ce ar fi trebuit să fie imposibil. Fără placă video. Fără nor. Nicio configurație hardware de 10.000 de dolari. Doar laptopul tău rulând un model de 100 de miliarde de parametri la viteza de citire umană. Iată cum funcționează: Fiecare alt LLM stochează greutățile în float-uri de 32 sau 16 biți. BitNet folosește 1,58 biți. Greutățile sunt ternare, doar -1, 0 sau +1. Atât. Fără care. Fără matematică matricială scumpă. Operații pure întregi pentru care CPU-ul tău era deja construit. Rezultatul: - Modelul 100B rulează pe un singur CPU la 5-7 tokenuri/secundă - 2,37x până la 6,17x mai rapid decât llama.cpp pe x86 - Consum de energie cu 82% mai mic pe procesoare x86 - Accelerare 1.37x până la 5.07x pe ARM (MacBook-ul tău) - Scăderi de memorie cu 16-32x față de modelele cu precizie completă Partea cea mai nebună: Precizia abia se mișcă. BitNet b1.58 2B4T, modelul lor emblematic, a fost antrenat pe 4 trilioane de tokenuri și benchmark-uri competitive împotriva modelelor de precizie completă de aceeași dimensiune. Cuantizarea nu distruge calitatea. Este doar pentru a elimina balonarea. Ce înseamnă de fapt acest lucru: ...