¿Pueden los robots dominar la manipulación compleja practicando en sus propios videos generados por IA? Investigadores de Stanford y Tsinghua presentan VLAW, un nuevo marco diseñado para impulsar el aprendizaje de los robots a través de un bucle de retroalimentación continuo. El método utiliza una estrategia de co-mejora: se utilizan datos de robots del mundo real para hacer que un simulador de video sea más realista, lo que luego genera datos de práctica sintética de alta calidad para entrenar el cerebro del robot. Esto soluciona el problema común donde los simuladores no logran capturar los pequeños y críticos detalles físicos necesarios para tareas complicadas. En experimentos del mundo real, VLAW logró una mejora del 39.2 por ciento en la tasa de éxito absoluta en comparación con la política base, superando significativamente a los modelos estándar al cerrar efectivamente la brecha entre la simulación y la realidad. VLAW: Co-mejora Iterativa de la Política de Visión-Lenguaje-Acción y Modelo del Mundo Documento: Código: Nuestro informe: