Os robôs podem dominar a manipulação complexa praticando em seus próprios vídeos gerados por IA? Pesquisadores de Stanford e Tsinghua apresentam o VLAW, uma nova estrutura projetada para impulsionar o aprendizado de robôs através de um ciclo de feedback contínuo. O método utiliza uma estratégia de co-melhoria: dados de robôs do mundo real são usados para tornar um simulador de vídeo mais realista, que então gera dados de prática sintéticos de alta qualidade para treinar o cérebro do robô. Isso resolve o problema comum em que os simuladores falham em capturar os pequenos e críticos detalhes físicos necessários para tarefas complicadas. Em experimentos do mundo real, o VLAW alcançou uma melhoria de 39,2 por cento na taxa de sucesso absoluta em relação à política base, superando significativamente os modelos padrão ao efetivamente reduzir a lacuna entre simulação e realidade. VLAW: Co-Melhoria Iterativa da Política de Visão-Linguagem-Ação e Modelo de Mundo Artigo: Código: Nosso relatório: