Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
regarde ça 👌🏻

Sanchit monga5 mars, 11:58
En seulement 48 heures chez @RunAnywhereAI, nous avons construit MetalRT : battant @Apple à leur propre jeu et livrant le MOTEUR d'inférence LLM le PLUS RAPIDE sur le marché pour Apple Silicon en ce moment.
- 570 tok/s décodage @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s décodage @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6,6 ms temps jusqu'au premier token
- 1,19× plus rapide que le propre MLX d'Apple (fichiers de modèle identiques)
- 1,67× plus rapide que llama.cpp en moyenne
Nous avons écrasé Apple MLX, llama.cpp, uzu (par TryMirai) et Ollama à travers quatre modèles 4-bit différents, y compris le LFM2.5-1.2B optimisé pour l'appareil sur un seul M4 Max.
Excité pour celui-ci !
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

299
Vraiment impressionnante sortie de modèles hybrides miniatures de l'équipe Qwen comme toujours !
Les gens demandent comment ils se comparent en vitesse, latence et mémoire aux LFMs de @liquidai pour le déploiement sur appareil ?
Voici un rapide profilage sur Apple M3 Ultra :
> LFM2.5-1.2B est 52 % plus rapide en décodage que le Qwen3.5-0.8B.
> LFM2-700M est 71 % plus rapide que Qwen3.5-0.8B en décodage
> LFM2-2.6B a la même vitesse que Qwen3.5-2B en décodage
> LFM2-700M utilise 46 % de mémoire maximale en moins que Qwen3.5-0.8B
> LFM2-2.6B utilise 21 % de mémoire maximale en moins que Qwen3.5-2B
> les lfms préremplis avec la même taille de paramètre sont généralement 12 % plus rapides que Qwen3.5
Nous avons conçu la série LFM2 avec notre approche de conception AI méta avec matériel en boucle qui nous permet de trouver l'architecture la plus efficace pour un processeur donné sans sacrifier la qualité.
Ce test a été réalisé sur Apple M3 Ultra, 512 Go de mémoire unifiée
Configuration :
> 512 jetons d'invite, 128 jetons de génération,
> 5 essais par configuration
> Cadre : MLX (mlx-lm / mlx-vlm)


Qwen2 mars, 21:18
🚀 Présentation de la série de petits modèles Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Plus d'intelligence, moins de calcul.
Ces petits modèles sont construits sur la même base Qwen3.5 — multimodal natif, architecture améliorée, RL à l'échelle :
• 0.8B / 2B → petit, rapide, idéal pour les appareils en périphérie
• 4B → une base multimodale étonnamment forte pour des agents légers
• 9B → compact, mais comble déjà l'écart avec des modèles beaucoup plus grands
Et oui — nous publions également les modèles de base.
Nous espérons que cela soutiendra mieux la recherche, l'expérimentation et l'innovation industrielle dans le monde réel.
Hugging Face :
ModelScope :

222
Meilleurs
Classement
Favoris
