Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

《Kiến trúc Sandbox của Agent Openclaw: Từ lựa chọn công nghệ đến câu chuyện an toàn mà người bình thường có thể hiểu》 Hai chế độ Hãy tưởng tượng, bạn muốn thuê một bảo vệ để trông nhà cho bạn. Bạn có hai lựa chọn: Kế hoạch một: Bảo vệ sống trong nhà bạn, nhưng khóa hộp công cụ trong két sắt. Bảo vệ có thể di chuyển, có thể nhìn thấy nhà bạn, nhưng không thể lấy được chìa khóa. Kế hoạch hai: Bảo vệ sống trong một trạm gác bên ngoài, trong nhà không có gì cho anh ta. Nếu anh ta muốn lấy bất cứ thứ gì, anh ta phải tìm quản gia của bạn. Công ty Browser Use (họ điều hành hàng triệu Web Agent) đã chọn kế hoạch hai. Câu chuyện của họ thực ra liên quan đến mọi người sử dụng AI.

Hai, Cách sử dụng trình duyệt như thế nào Họ ban đầu sử dụng phương án một: Agent chạy trên máy chủ của mình, mã được thực thi trong một sandbox cách ly. Nghe có vẻ an toàn đúng không? Nhưng có một vấn đề: Agent vẫn ở trên máy chủ, nó có thể thấy các biến môi trường, khóa API, thông tin xác thực cơ sở dữ liệu. Nếu Agent quyết định "đánh cắp một chút đồ" thì sao?

Ba, Vì vậy họ đã viết lại toàn bộ kiến trúc: • Agent hoàn toàn tách biệt: mỗi Agent chạy trong micro-VM Unikraft của riêng nó, khởi động chỉ mất chưa đến một giây • Bảng điều khiển như người quản gia: tất cả các giao tiếp bên ngoài (gọi LLM, lưu tệp, tính phí) đều qua bảng điều khiển, nó nắm giữ tất cả các chứng chỉ • Sandbox không biết gì: Agent chỉ nhận ba biến môi trường - token phiên, URL bảng điều khiển, ID phiên. Không có khóa AWS, không có chứng chỉ cơ sở dữ liệu • Có thể vứt bỏ: Agent chết? Khởi động lại một cái. Trạng thái mất? Bảng điều khiển có ngữ cảnh đầy đủ. Nó không có gì đáng để đánh cắp, cũng không có trạng thái nào cần giữ lại.

Bốn, Chi tiết kỹ thuật: Sản xuất bằng Unikraft micro-VM (scale-to-zero, treo khi không sử dụng), phát triển bằng Docker container. Cùng một hình ảnh ở khắp mọi nơi. Góc nhìn của người bình thường: Điều này có liên quan gì đến tôi? Bạn có thể không biết "micro-VM" hoặc "presigned URLs" là gì, nhưng khi bạn sử dụng AI, bạn đang làm việc với loại kiến trúc này.

Năm, Cảm giác an toàn: Khi bạn sử dụng một dịch vụ AI nào đó để viết mã, tra cứu thông tin, thực tế là họ đang chạy yêu cầu của bạn trong một VM được cách ly. Nếu kiến trúc được thiết kế không tốt (giải pháp một), về lý thuyết, AI Agent đó có thể nhìn thấy tất cả bí mật của bên cung cấp dịch vụ - mật khẩu cơ sở dữ liệu, khóa API, dữ liệu của người dùng khác.

Sáu, Chi phí và tốc độ: Giải pháp thứ hai có một cái giá - mỗi lần thao tác sẽ có thêm một lần nhảy mạng. Nhưng so với thời gian phản hồi của LLM, độ trễ này gần như có thể bỏ qua. Quan trọng hơn, khi Agent không hoạt động, VM sẽ bị treo, chi phí gần như bằng không. Bảo mật dữ liệu: Tệp của bạn được lưu trữ như thế nào? Sandbox yêu cầu một URL đã ký trước từ mặt phẳng điều khiển, sau đó tải trực tiếp lên S3. Toàn bộ quá trình, sandbox không thấy khóa AWS. Dữ liệu của bạn sẽ không bị rò rỉ cho Agent.

Bảy, Suy nghĩ của tôi: Địa phương vs Đám mây Cài đặt hiện tại của tôi (OpenClaw + LM Studio + x-reader) là một "phiên bản đơn lẻ" điển hình: • Mô hình chạy trên máy tính (Qwen3.5-35B trên RTX 3090) • Agent không bị cách ly (bởi vì nó ở ngay trên máy tính của bạn) • Dữ liệu hoàn toàn ở địa phương Điều này so với giải pháp Sử dụng Trình duyệt: Kích thước Agent đơn lẻ địa phương (chúng tôi) Agent cách ly trên đám mây (Sử dụng Trình duyệt) Quyền riêng tư Dữ liệu không ra khỏi địa phương Dữ liệu lên đám mây, nhưng Agent không lấy được khóa An toàn Phụ thuộc vào bảo vệ địa phương Agent hoàn toàn cách ly, không thể bị đánh cắp Chi phí Đầu tư phần cứng một lần Trả theo mức sử dụng (scale-to-zero) Khả năng mở rộng Bị giới hạn bởi phần cứng địa phương Mở rộng không giới hạn, nhiều Agent song song Độ trễ Không có độ trễ mạng Thêm một lần nhảy mạng (nhưng có thể bỏ qua)

Tám, Đánh giá của tôi: Tương lai sẽ là mô hình kết hợp. • Nhiệm vụ đơn giản chạy tại chỗ: Viết một kịch bản, tra cứu thông tin, sắp xếp tài liệu, những việc này có thể hoàn thành tại chỗ, bảo mật tốt, tốc độ nhanh. • Nhiệm vụ phức tạp lên đám mây: Cần nhiều Agent chạy song song, xử lý một lượng lớn dữ liệu, chạy trong thời gian dài, lúc này sử dụng kiến trúc Browser Use sẽ phù hợp hơn.

Chín, Vốn dĩ không có gì, sao lại gây bụi bặm Agent của bạn chắc chắn không có gì đáng để đánh cắp, cũng không có trạng thái nào cần phải giữ lại. Câu này dịch ra tiếng phổ thông là: • Không đáng để đánh cắp: Agent không biết bất kỳ bí mật nào. Nó điều chỉnh LLM cần token? Được cung cấp bởi mặt phẳng điều khiển, dùng xong thì vứt. Nó cần lưu tệp? presigned URL là tạm thời, hết hạn thì không còn giá trị. • Không cần giữ lại: Agent chết? Khởi động một cái mới. Nó nhớ ngữ cảnh? Cơ sở dữ liệu của mặt phẳng điều khiển có ghi chép đầy đủ. Thực ra đây là ứng dụng của kiến trúc không tin cậy trong thời đại AI: đừng tin tưởng bất kỳ thành phần nào, ngay cả khi đó là Agent do chính bạn viết.

Mười, Người mới bắt đầu với AI nên học như thế nào? 1. Lựa chọn công cụ AI: Khi sử dụng dịch vụ AI trên đám mây, hãy tự hỏi - nếu Agent này mất kiểm soát, nó có thể lấy được gì? Một kiến trúc tốt nên khiến nó "không biết gì". 2. Nhận thức về quyền riêng tư: AI cục bộ thực hiện các nhiệm vụ đơn giản (OpenClaw, LM Studio), dữ liệu nhạy cảm không nên lên đám mây. Các nhiệm vụ phức tạp sử dụng giải pháp cách ly trên đám mây, nhưng cần biết rằng dữ liệu sẽ rời khỏi cục bộ. 3. Quy trình làm việc trong tương lai: Một người + nhiều Agent hợp tác là xu hướng (Karpathy nói về Tab→Agent→Parallel Agents→Agent Teams). Nhưng mỗi Agent đều nên được cách ly, không nên để nó "sống trong nhà bạn".

Mười một, Sự cân bằng giữa an toàn và hiệu quả Giải pháp Sử dụng Trình duyệt không hoàn hảo - cần triển khai thêm ba dịch vụ, mỗi lần thao tác lại có thêm một lần nhảy mạng. Nhưng so với rủi ro "Đại lý đánh cắp tất cả các khóa", những chi phí này là đáng phải trả. Đối với những người như chúng tôi có thiết lập AI tại chỗ, bài học là: • Tình huống đơn giản: tiếp tục sử dụng giải pháp tại chỗ (OpenClaw + LM Studio), bảo mật tốt, chi phí thấp • Tình huống phức tạp: trong tương lai có thể cần kết nối với dịch vụ Đại lý cách ly trên đám mây, để những người chuyên nghiệp làm những việc chuyên nghiệp An toàn AI không phải là huyền học, mà là thiết kế kiến trúc. Thiết kế tốt khiến Đại lý "không có gì" - không có bí mật để đánh cắp, không có trạng thái để đổ lỗi.

Mười hai, Đây có lẽ là hình dạng của cơ sở hạ tầng AI trong tương lai: Agent là có thể thay thế, mặt điều khiển là đáng tin cậy, dữ liệu người dùng được bảo vệ. Còn chúng ta? Tiếp tục sử dụng OpenClaw để chạy Agent cục bộ, đợi đến khi nào cần chạy hàng chục, hàng trăm cái cùng lúc, thì hãy xem xét việc kết nối với kiến trúc như Browser Use. Ngày mai sẽ tốt hơn.

1,43K

Hàng đầu

Thứ hạng

Yêu thích