DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Connor Davis

Fundador de @getoutbox_ai Aprende a crear agentes de IA GRATIS 👉 https://t.co/q9zPwlldZ4

MIT acaba de publicar un artículo que explica de manera discreta por qué el razonamiento de los LLM se encuentra con un muro y cómo superarlo. La historia habitual es que los modelos fallan en problemas difíciles porque carecen de escala, datos o inteligencia. Este artículo argumenta algo mucho más estructural: los modelos dejan de mejorar porque la señal de aprendizaje desaparece. Una vez que una tarea se vuelve demasiado difícil, las tasas de éxito colapsan hacia cero, el aprendizaje por refuerzo no tiene nada que optimizar y el razonamiento se estanca. El fallo no es cognitivo, es pedagógico. Los autores proponen un replanteamiento simple pero radical. En lugar de preguntar cómo hacer que los modelos resuelvan problemas más difíciles, preguntan cómo pueden los modelos generar problemas que les enseñen. Su sistema, SOAR, divide un único modelo preentrenado en dos roles: un estudiante que intenta tareas objetivo extremadamente difíciles y un profesor que genera nuevos problemas de entrenamiento. La trampa es que el profesor no es recompensado por producir preguntas ingeniosas o realistas. Solo se le recompensa si el rendimiento del estudiante mejora en un conjunto fijo de problemas de evaluación reales. No hay mejora, no hay recompensa. Ese incentivo reconfigura todo. El profesor aprende a generar problemas intermedios, escalones que se sitúan justo dentro del límite de capacidad actual del estudiante. Estos problemas no son versiones simplificadas de la tarea objetivo y, sorprendentemente, ni siquiera requieren soluciones correctas. Lo que importa es que su estructura obliga al estudiante a practicar el tipo correcto de razonamiento, permitiendo que la señal de gradiente emerja incluso cuando la supervisión directa falla. Los resultados experimentales dejan el punto dolorosamente claro. En benchmarks donde los modelos comienzan con cero éxito y el aprendizaje por refuerzo estándar se estanca por completo, SOAR rompe el estancamiento y mejora el rendimiento de manera constante. El modelo escapa del borde de la aprendibilidad no pensando más duro, sino construyendo un mejor entorno de aprendizaje para sí mismo. La implicación más profunda es incómoda. Muchos de los supuestos "límites de razonamiento" pueden no ser límites de inteligencia en absoluto. Son artefactos de configuraciones de entrenamiento que asumen que el mundo proporciona problemas aprendibles de forma gratuita. Este artículo sugiere que si los modelos pueden dar forma a su propio currículo, los plateaus de razonamiento se convierten en problemas de ingeniería, no en barreras fundamentales. Sin nuevas arquitecturas, sin datos humanos adicionales, sin modelos más grandes. Solo un cambio en lo que recompensamos: el progreso en el aprendizaje en lugar de las respuestas.

Santo cielo... Este documento explica en silencio por qué la mayoría de los modelos de “razonamiento” se desmoronan en el momento en que los desconectas de bancos de pruebas limpios y los lanzas al mundo real. El equipo de LongCat aborda una pregunta que el campo sigue esquivando: si los modelos de hoy son tan buenos en razonamiento, ¿por qué aún fallan en comportamientos básicos de agentes una vez que las herramientas fallan, las instrucciones se vuelven confusas o los entornos se resisten? Su respuesta es incómoda. El razonamiento no falla porque las cadenas de pensamiento sean demasiado cortas. Falla porque entrenamos el pensamiento sin consecuencias. El documento presenta LongCat-Flash-Thinking-2601, un modelo Mixture-of-Experts de 560B parámetros construido en torno a una idea simple pero radical: el razonamiento solo se vuelve fiable cuando se ve obligado a actuar, observar fallos y adaptarse dentro de entornos reales. En lugar de tratar el razonamiento como generación de texto, lo enmarcan como un bucle: observar → planear → actuar → recibir retroalimentación → revisar. Ese cambio tiene repercusiones en todas partes. Los datos ya no son indicaciones estáticas. El entrenamiento no son trayectorias limpias. La evaluación no son respuestas de una sola vez. Una de las contribuciones más importantes es la escalabilidad del entorno. Los autores generan automáticamente más de 10,000 entornos ejecutables en más de 20 dominios, cada uno basado en herramientas reales, bases de datos reales y múltiples caminos de solución válidos. La dificultad aumenta estructuralmente, no por trucos ingeniosos de indicaciones. Crucialmente, no sanitizan el mundo. Fallos de herramientas, instrucciones ambiguas, salidas parciales y retroalimentación ruidosa son inyectadas deliberadamente. El ruido no es un error. Es el currículo. Para mantener el entrenamiento estable a esta escala, extienden el RL asíncrono (DORA) para manejar interacciones de largo horizonte y múltiples turnos con decenas de miles de entornos concurrentes sin colapsar. En el momento de la inferencia, introducen el Modo de Pensamiento Pesado. En lugar de una larga cadena de pensamiento, el modelo ejecuta caminos de razonamiento paralelos y luego reflexiona sobre ellos antes de actuar. Esto supera consistentemente la auto-consistencia en tareas complejas y agenciales. Los resultados hablan por sí mismos. Rendimiento de vanguardia en BrowseComp, τ²-Bench y VitaBench. Fuertes resultados en matemáticas, codificación y búsqueda. Y lo más importante, mucha menos degradación en condiciones ruidosas. La verdadera conclusión es más aguda que cualquier número de referencia: La calidad del razonamiento ya no es el cuello de botella. La generalización lo es. Y la generalización no proviene de mejores indicaciones o pensamientos más largos. Proviene de entornos que se resisten. Si queremos agentes que funcionen fuera de demostraciones, tenemos que dejar de entrenarlos en mundos limpios e imaginarios. La inteligencia no se forja donde todo sale bien. Se forja donde las cosas se rompen. Documento: Informe Técnico de LongCat-Flash-Thinking-2601 Lee el documento completo aquí en:

Parte superior

Clasificación

Favoritos