Caramba... A Microsoft disponibilizou um framework de inferência que executa um LLM de 100B parâmetros em uma única CPU. Chama-se BitNet. E faz o que deveria ser impossível. Sem GPU. Sem nuvem. Sem hardware de $10 mil. Apenas seu laptop rodando um modelo de 100 bilhões de parâmetros na velocidade de leitura humana. Veja como funciona: Todo outro LLM armazena pesos em floats de 32 ou 16 bits. O BitNet usa 1,58 bits. Os Pesos são ternários, apenas -1, 0 ou +1. É isso. Sem flutuadores. Sem matemática matricial cara. Operações puramente inteiras para as quais seu processador já foi construído. O resultado: - Modelo 100B roda em uma única CPU a 5-7 tokens/segundo - 2,37x a 6,17x mais rápido que llama.cpp no x86 - 82% menor no consumo de energia em CPUs x86 - Aceleração de 1,37x a 5,07x no ARM (seu MacBook) - Queda de memória em 16-32x em comparação com modelos de precisão total A parte mais louca: A precisão mal se move. O BitNet b1.58 2B4T, seu modelo principal, foi treinado com 4 trilhões de tokens e faz benchmarks competitivos contra modelos de precisão total do mesmo tamanho. A quantização não está destruindo qualidade. É só para remover o inchaço. O que isso realmente significa: ...