Đây có lẽ là công trình RL đầu tiên trên OpenClaw 🔥 MetaClaw: Chỉ cần nói chuyện với đại lý của bạn và để nó tự phát triển. Github: Hầu hết các đại lý AI đều bị đóng băng ngay khi họ ra mắt. Mọi sai lầm họ mắc phải, họ sẽ mắc lại vào ngày mai. MetaClaw khắc phục điều đó. Đây là một lớp RL trực tuyến được xây dựng trên OpenClaw cho phép các đại lý học hỏi từ chính tương tác của họ — không cần cụm GPU, không cần tập dữ liệu ngoại tuyến, không cần đội ngũ kỹ thuật. Vòng lặp rất đơn giản: mỗi cuộc trò chuyện được ghi lại như một quỹ đạo đào tạo. Khi đại lý thất bại, nó phân tích những gì đã sai và đề xuất một kỹ năng tái sử dụng mới. Các bản cập nhật LoRA được đào tạo không đồng bộ trong nền. Lần tới khi một tình huống tương tự xảy ra, kỹ năng liên quan sẽ được lấy vào lời nhắc tự động. Đại lý không chỉ tích lũy các cuộc trò chuyện. Nó tích lũy khả năng. Điều gì làm cho điều này khác với việc tinh chỉnh: không có quy trình gán nhãn con người, không có các phiên đào tạo theo lô, không có chu kỳ triển khai. Sự cải thiện diễn ra liên tục, vô hình, trong sản xuất. Tương tác → học hỏi → cải thiện, theo vòng lặp. Không có tập dữ liệu ngoại tuyến. Không cần lập trình. Không cần cụm GPU. Phần đáng chú ý: điều này biến mọi tương tác của người dùng thành một tín hiệu đào tạo. Đại lý bạn triển khai vào ngày đầu tiên không phải là đại lý bạn có vào ngày thứ ba mươi. Nó đã được hình thành bởi mọi thứ mà nó đã sai và đã sửa chữa. Công việc tuyệt vời của @HuaxiuYaoML !