Robôs podem dominar manipulação complexa praticando seus próprios vídeos gerados por IA? Pesquisadores de Stanford e Tsinghua apresentam o VLAW, uma nova estrutura projetada para impulsionar o aprendizado de robôs por meio de um ciclo contínuo de feedback. O método utiliza uma estratégia de co-melhoria: dados reais de robôs são usados para tornar um simulador de vídeo mais realista, que então gera dados sintéticos de alta qualidade para treinar o cérebro do robô. Isso resolve o problema comum em que os simuladores não conseguem capturar os pequenos detalhes físicos críticos necessários para tarefas complicadas. Em experimentos do mundo real, o VLAW alcançou uma melhoria absoluta de 39,2% na taxa de sucesso em relação à política base, superando significativamente os modelos padrão ao efetivamente fazer a ponte entre simulação e realidade. VLAW: Co-melhoria iterativa da Visão-Linguagem-Ação Política e do Modelo Mundial Papel: Código: Nosso relatório: