Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
veja isto 👌🏻

Sanchit monga5/03, 11:58
Em apenas 48 horas na @RunAnywhereAI, construímos o MetalRT: superando a @Apple no seu próprio jogo e entregando o MOTOR de inferência LLM MAIS RÁPIDO do mercado para Apple Silicon neste momento.
- 570 tok/s decodificação @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s decodificação @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6.6 ms tempo até o primeiro token
- 1.19× mais rápido que o próprio MLX da Apple (arquivos de modelo idênticos)
- 1.67× mais rápido que llama.cpp em média
Destruímos a Apple MLX, llama.cpp, uzu(by TryMirai) e Ollama em quatro modelos diferentes de 4-bit, incluindo o LFM2.5-1.2B otimizado para dispositivo em um único M4 Max.
Empolgado por este!

287
Lançamento verdadeiramente impressionante de modelos híbridos pequenos da equipe Qwen, como sempre!
As pessoas estão perguntando como eles se comparam em velocidade, latência e memória aos LFMs da @liquidai para implantação em dispositivos?
Aqui está um rápido perfilamento no Apple M3 Ultra:
> LFM2.5-1.2B é 52% mais rápido na decodificação do que o Qwen3.5-0.8B.
> LFM2-700M é 71% mais rápido do que o Qwen3.5-0.8B na decodificação
> LFM2-2.6B tem a mesma velocidade que o Qwen3.5-2B na decodificação
> LFM2-700M usa 46% menos memória de pico do que o Qwen3.5-0.8B
> LFM2-2.6B usa 21% menos memória de pico do que o Qwen3.5-2B
> lfms prefill com o mesmo tamanho de parâmetro é geralmente 12% mais rápido do que o Qwen3.5
Projetamos a série LFM2 com nossa abordagem de design meta AI com hardware em loop, que nos permite descobrir a arquitetura mais eficiente para um determinado processador sem sacrificar a qualidade.
Este teste foi realizado no Apple M3 Ultra, 512 GB de memória unificada
Configuração:
> 512 tokens de prompt, 128 tokens de geração,
> 5 testes por configuração
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2/03, 21:18
🚀 Introducing the Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ More intelligence, less compute.
These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL:
• 0.8B / 2B → tiny, fast, great for edge device
• 4B → a surprisingly strong multimodal base for lightweight agents
• 9B → compact, but already closing the gap with much larger models
And yes — we’re also releasing the Base models as well.
We hope this better supports research, experimentation, and real-world industrial innovation.
Hugging Face:
ModelScope:

212
Top
Classificação
Favoritos
