机器人能否通过在自己生成的 AI 视频中练习掌握复杂的操作? 斯坦福大学和清华大学的研究人员介绍了 VLAW,这是一种旨在通过持续反馈循环来提升机器人学习的新框架。 该方法使用了一种共同改进策略:使用现实世界的机器人数据使视频模拟器更逼真,然后生成高质量的合成练习数据来训练机器人的大脑。这解决了模拟器无法捕捉到执行复杂任务所需的微小关键物理细节的常见问题。 在现实世界的实验中,VLAW 在基础策略上实现了 39.2% 的绝对成功率提升,显著超越了标准模型,有效地弥合了模拟与现实之间的差距。 VLAW:视觉-语言-动作策略和世界模型的迭代共同改进 论文: 代码: 我们的报告: