Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
mira esto 👌🏻

Sanchit monga5 mar, 11:58
En solo 48 horas en @RunAnywhereAI construimos MetalRT: superando a @Apple en su propio juego y entregando el MOTOR de inferencia LLM más RÁPIDO del mercado para Apple Silicon en este momento.
- 570 tok/s decodificación @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s decodificación @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6.6 ms tiempo hasta el primer token
- 1.19× más rápido que el propio MLX de Apple (archivos de modelo idénticos)
- 1.67× más rápido que llama.cpp en promedio
Destrimos a Apple MLX, llama.cpp, uzu (de TryMirai) y Ollama en cuatro modelos diferentes de 4-bit, incluyendo el LFM2.5-1.2B optimizado para el dispositivo en un solo M4 Max.
¡Emocionado por esto!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

297
¡Realmente impresionante lanzamiento de modelos híbridos pequeños por parte del equipo de Qwen, como siempre!
La gente está preguntando cómo se comparan en velocidad, latencia y memoria con los LFMs de @liquidai para implementación en dispositivos.
Aquí hay un perfil rápido en Apple M3 Ultra:
> LFM2.5-1.2B es un 52% más rápido en decodificación que el Qwen3.5-0.8B.
> LFM2-700M es un 71% más rápido que el Qwen3.5-0.8B en decodificación.
> LFM2-2.6B tiene la misma velocidad que el Qwen3.5-2B en decodificación.
> LFM2-700M utiliza un 46% menos de memoria máxima que el Qwen3.5-0.8B.
> LFM2-2.6B utiliza un 21% menos de memoria máxima que el Qwen3.5-2B.
> Los lfms prefill con el mismo tamaño de parámetro son generalmente un 12% más rápidos que el Qwen3.5.
Diseñamos la serie LFM2 con nuestro enfoque de diseño de meta AI con hardware en el bucle que nos permite encontrar la arquitectura más eficiente para un procesador dado sin sacrificar calidad.
Esta prueba se realizó en Apple M3 Ultra, 512 GB de memoria unificada.
Configuración:
> 512 tokens de entrada, 128 tokens de generación,
> 5 pruebas por configuración
> Marco: MLX (mlx-lm / mlx-vlm)


Qwen2 mar, 21:18
🚀 Presentamos la serie de modelos pequeños Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Más inteligencia, menos computación.
Estos modelos pequeños están construidos sobre la misma base Qwen3.5 — multimodal nativo, arquitectura mejorada, RL escalado:
• 0.8B / 2B → pequeños, rápidos, ideales para dispositivos de borde
• 4B → una base multimodal sorprendentemente fuerte para agentes ligeros
• 9B → compacto, pero ya cerrando la brecha con modelos mucho más grandes
Y sí — también estamos lanzando los modelos Base.
Esperamos que esto apoye mejor la investigación, la experimentación y la innovación industrial en el mundo real.
Hugging Face:
ModelScope:

219
Parte superior
Clasificación
Favoritos
