Les robots peuvent-ils maîtriser la manipulation complexe en s'exerçant dans leurs propres vidéos générées par IA ? Des chercheurs de Stanford et de Tsinghua présentent VLAW, un nouveau cadre conçu pour améliorer l'apprentissage des robots grâce à une boucle de rétroaction continue. La méthode utilise une stratégie de co-amélioration : les données réelles des robots sont utilisées pour rendre un simulateur vidéo plus réaliste, qui génère ensuite des données d'entraînement synthétiques de haute qualité pour entraîner le cerveau du robot. Cela résout le problème courant où les simulateurs échouent à capturer les petits détails physiques critiques nécessaires pour des tâches délicates. Dans des expériences réelles, VLAW a atteint une amélioration de 39,2 % du taux de succès absolu par rapport à la politique de base, surpassant significativement les modèles standards en comblant efficacement le fossé entre la simulation et la réalité. VLAW : Co-amélioration itérative de la politique Vision-Langage-Action et du modèle du monde Document : Code : Notre rapport :