Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Uită-te 👌🏻 la asta

Sanchit monga5 mar., 11:58
În doar 48 de ore la @RunAnywhereAI am construit MetalRT: învingându-i pe @Apple la propriul lor joc și livrând cel MAI RAPID motor de inferență LLM de pe piață pentru Apple Silicon în acest moment.
- Decodare 570 tok/s @liquidai LFM 2.5-1.2B pe 4 biți
- Decodare 658 tok/s @Alibaba_Qwen Qwen3-0.6B, 4 biți
- 6,6 ms timp până la primul jeton
- 1.19× mai rapid decât propriul MLX al Apple (fișiere model identice)
- 1,67× mai rapid decât llama.cpp în medie
Am zdrobit Apple MLX, llama.cpp, uzu (de la TryMirai) și Ollama în patru modele diferite pe 4 biți, inclusiv LFM2.5-1.2B optimizat pe dispozitiv pe un singur M4 Max.
Sunt entuziasmat pentru acesta!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

281
Lansarea cu adevărat impresionantă a modelelor hibride tiny din partea echipei Qwen, ca întotdeauna!
Oamenii întreabă cum se compară în viteză, latență și memorie cu LFM-urile @liquidai pentru implementarea pe dispozitiv?
Iată o scurtă prezentare a Apple M3 Ultra:
> LFM2.5-1.2B este cu 52% mai rapid în decodare decât Qwen3.5-0.8B.
> LFM2-700M este cu 71% mai rapid decât Qwen3.5-0.8B la decodare
> LFM2-2.6B are aceeași viteză ca Qwen3.5-2B la decodare
> LFM2-700M folosește cu 46% mai puțină memorie de pic decât Qwen3.5-0.8B
> LFM2-2.6B folosește cu 21% mai puțină memorie de pic decât Qwen3.5-2B
> prefill lfms cu aceeași dimensiune a parametrilor este, în general, cu 12% mai rapid decât Qwen3.5
Am proiectat seria LFM2 cu abordarea noastră de design meta-AI hardware-in-the-loop, care ne permite să descoperim cea mai eficientă arhitectură pentru un procesor dat fără sacrificii de calitate.
Acest test se face pe Apple M3 Ultra, memorie unificată de 512 GB
Configurație:
> 512 jetoane de prompt, 128 de jetoane de generație,
> 5 teste pe configurație
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2 mar., 21:18
🚀 Introducing the Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ More intelligence, less compute.
These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL:
• 0.8B / 2B → tiny, fast, great for edge device
• 4B → a surprisingly strong multimodal base for lightweight agents
• 9B → compact, but already closing the gap with much larger models
And yes — we’re also releasing the Base models as well.
We hope this better supports research, experimentation, and real-world industrial innovation.
Hugging Face:
ModelScope:

208
Limită superioară
Clasament
Favorite
