Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Caramba... A Microsoft disponibilizou um framework de inferência que executa um LLM de 100B parâmetros em uma única CPU.
Chama-se BitNet. E faz o que deveria ser impossível.
Sem GPU. Sem nuvem. Sem hardware de $10 mil. Apenas seu laptop rodando um modelo de 100 bilhões de parâmetros na velocidade de leitura humana.
Veja como funciona:
Todo outro LLM armazena pesos em floats de 32 ou 16 bits.
O BitNet usa 1,58 bits.
Os Pesos são ternários, apenas -1, 0 ou +1. É isso. Sem flutuadores. Sem matemática matricial cara. Operações puramente inteiras para as quais seu processador já foi construído.
O resultado:
- Modelo 100B roda em uma única CPU a 5-7 tokens/segundo
- 2,37x a 6,17x mais rápido que llama.cpp no x86
- 82% menor no consumo de energia em CPUs x86
- Aceleração de 1,37x a 5,07x no ARM (seu MacBook)
- Queda de memória em 16-32x em comparação com modelos de precisão total
A parte mais louca:
A precisão mal se move.
O BitNet b1.58 2B4T, seu modelo principal, foi treinado com 4 trilhões de tokens e faz benchmarks competitivos contra modelos de precisão total do mesmo tamanho. A quantização não está destruindo qualidade. É só para remover o inchaço.
O que isso realmente significa:
...
Melhores
Classificação
Favoritos
