Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Se på dette 👌🏻

Sanchit monga5. mars, 11:58
På bare 48 timer hos @RunAnywhereAI bygde vi MetalRT: slo @Apple i deres eget spill og leverte den RASKESTE LLM-inferensmotoren på markedet for Apple Silicon akkurat nå.
- 570 tok/s dekoding @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s dekoding @Alibaba_Qwen Qwen3-0,6B, 4-bit
- 6,6 ms tid til første token
- 1.19× raskere enn Apples egen MLX (identiske modellfiler)
- 1,67× raskere enn llama.cpp i gjennomsnitt
Vi knuste Apple MLX, llama.cpp, uzu (av TryMirai) og Ollama på tvers av fire forskjellige 4-bits modeller, inkludert den on-device optimaliserte LFM2.5-1.2B på en enkelt M4 Max.
Gleder meg til denne!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

295
Virkelig imponerende lansering av hybride små modeller fra Qwen-teamet som alltid!
Folk spør hvordan de sammenlignes i hastighet, latens og minne med @liquidai LFM-er for distribusjon på enheten?
Her er en rask presentasjon av Apple M3 Ultra:
> LFM2.5-1.2B er 52 % raskere i dekoding enn Qwen3.5-0.8B.
> LFM2-700M er 71 % raskere enn Qwen3.5-0.8B ved dekoding
> LFM2-2.6B har samme hastighet som Qwen3.5-2B ved dekoding
> LFM2-700M bruker 46 % mindre toppminne enn Qwen3.5-0.8B
> LFM2-2.6B bruker 21 % mindre toppminne enn Qwen3.5-2B
> lfms-prefill med samme parameterstørrelse er vanligvis 12 % raskere enn Qwen3.5
Vi designet LFM2-serien med vår hardware-in-the-loop meta-AI-designtilnærming som lar oss finne den mest effektive arkitekturen for en gitt prosessor uten kvalitetsofre.
Denne testen utføres på Apple M3 Ultra, 512 GB samlet minne
Konfigurasjon:
> 512 prompt-tokens, 128 generasjonstokens,
> 5 forsøk per konfigurasjon
> Rammeverk: MLX (mlx-lm / mlx-vlm)


Qwen2. mars, 21:18
🚀 Introducing the Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ More intelligence, less compute.
These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL:
• 0.8B / 2B → tiny, fast, great for edge device
• 4B → a surprisingly strong multimodal base for lightweight agents
• 9B → compact, but already closing the gap with much larger models
And yes — we’re also releasing the Base models as well.
We hope this better supports research, experimentation, and real-world industrial innovation.
Hugging Face:
ModelScope:

217
Topp
Rangering
Favoritter
