🚨 阿里巴巴刚刚开源了一个可以在网页中运行的 GUI 代理,能够用自然语言控制网页。 它叫做 Page Agent,并不是一个浏览器扩展。 它是纯 JavaScript,没有 Python,没有 Puppeteer,没有无头浏览器,没有截图。 只需一个 script 标签,你的 web 应用就能理解自然语言。 它实际上做了什么: → 通过一个 <script> 标签嵌入或 npm 安装 → 用简单的英语命令控制任何网页界面 → 基于文本的 DOM 操作,无需 OCR,无需视觉模型 → 自带 LLM(GPT、Claude、Qwen,任何都可以) → 提供内置 UI,支持人机协作 → 将 20 次点击的 ERP/CRM 工作流程简化为一句话 → 可选的 Chrome 扩展,用于多标签代理任务 → 适用于任何 web 应用 SaaS、管理面板、内部工具 公司们为基于这个想法构建的 AI 副驾驶收费 30 美元/月。 这只需要 3 行代码。 你的用户。 你的界面。 每个 web 应用的 AI 副驾驶层现在已经开源。 1.6K 星。100% 开源。 (链接在评论中)