Vaya... Microsoft ha abierto el código de un marco de inferencia que ejecuta un modelo LLM de 100 mil millones de parámetros en una sola CPU. Se llama BitNet. Y hace lo que se suponía que era imposible. Sin GPU. Sin nube. Sin configuración de hardware de $10,000. Solo tu portátil ejecutando un modelo de 100 mil millones de parámetros a la velocidad de lectura humana. Así es como funciona: Cada otro LLM almacena pesos en flotantes de 32 bits o 16 bits. BitNet utiliza 1.58 bits. Los pesos son ternarios: solo -1, 0 o +1. Eso es todo. Sin flotantes. Sin costosas matemáticas de matrices. Operaciones puras de enteros para las que tu CPU ya fue diseñada. El resultado: - El modelo de 100B se ejecuta en una sola CPU a 5-7 tokens/segundo - 2.37x a 6.17x más rápido que llama.cpp en x86 - 82% menos consumo de energía en CPUs x86 - 1.37x a 5.07x de aumento de velocidad en ARM (tu MacBook) - La memoria se reduce entre 16 y 32 veces en comparación con modelos de precisión completa La parte más sorprendente: La precisión apenas se mueve. BitNet b1.58 2B4T, su modelo insignia, fue entrenado con 4 billones de tokens y compite en benchmarks contra modelos de precisión completa del mismo tamaño. La cuantización no está destruyendo la calidad. Simplemente está eliminando el exceso. Lo que esto realmente significa: ...