Liệu robot có thể thành thạo việc thao tác phức tạp bằng cách luyện tập trong các video do AI tự tạo không? Các nhà nghiên cứu từ Stanford và Tsinghua giới thiệu VLAW, một khung công tác mới được thiết kế để tăng cường việc học của robot thông qua một vòng phản hồi liên tục. Phương pháp này sử dụng chiến lược cải tiến đồng thời: dữ liệu robot từ thế giới thực được sử dụng để làm cho một trình giả lập video trở nên thực tế hơn, từ đó tạo ra dữ liệu thực hành tổng hợp chất lượng cao để huấn luyện bộ não của robot. Điều này khắc phục vấn đề phổ biến mà các trình giả lập không thể nắm bắt được những chi tiết vật lý nhỏ nhặt, quan trọng cần thiết cho các nhiệm vụ khó khăn. Trong các thí nghiệm thực tế, VLAW đạt được tỷ lệ thành công tuyệt đối cải thiện 39,2 phần trăm so với chính sách cơ bản, vượt trội hơn hẳn các mô hình tiêu chuẩn bằng cách hiệu quả thu hẹp khoảng cách giữa mô phỏng và thực tế. VLAW: Cải tiến đồng thời chính sách Hành động Ngôn ngữ Thị giác và Mô hình Thế giới Bài báo: Mã: Báo cáo của chúng tôi: