DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Vaya... Microsoft ha abierto el código de un marco de inferencia que ejecuta un modelo LLM de 100 mil millones de parámetros en una sola CPU. Se llama BitNet. Y hace lo que se suponía que era imposible. Sin GPU. Sin nube. Sin configuración de hardware de $10,000. Solo tu portátil ejecutando un modelo de 100 mil millones de parámetros a la velocidad de lectura humana. Así es como funciona: Cada otro LLM almacena pesos en flotantes de 32 bits o 16 bits. BitNet utiliza 1.58 bits. Los pesos son ternarios: solo -1, 0 o +1. Eso es todo. Sin flotantes. Sin costosas matemáticas de matrices. Operaciones puras de enteros para las que tu CPU ya fue diseñada. El resultado: - El modelo de 100B se ejecuta en una sola CPU a 5-7 tokens/segundo - 2.37x a 6.17x más rápido que llama.cpp en x86 - 82% menos consumo de energía en CPUs x86 - 1.37x a 5.07x de aumento de velocidad en ARM (tu MacBook) - La memoria se reduce entre 16 y 32 veces en comparación con modelos de precisión completa La parte más sorprendente: La precisión apenas se mueve. BitNet b1.58 2B4T, su modelo insignia, fue entrenado con 4 billones de tokens y compite en benchmarks contra modelos de precisión completa del mismo tamaño. La cuantización no está destruyendo la calidad. Simplemente está eliminando el exceso. Lo que esto realmente significa: ...

Parte superior

Clasificación

Favoritos