Skip to content

内置浏览器自动化

内置一块 AI 可以直接驱动的浏览器面板——终端里的 AI 能自己打开网页、点击、填表、读取数据、跑自动化测试。查文档、测网页、抓数据、验登录流程这些过去要你手动来的事,现在交给 AI 在浏览器里完成。

为什么需要

AI 编程时经常要和网页打交道:查在线文档、测试自己写的前端、获取页面数据、验证登录注册流程。过去 AI「看不到」浏览器,只能让你手动操作再把结果贴回来。内置浏览器自动化把浏览器接进了 AI 的工作闭环:

  • AI 能看见:读取页面结构、截图,AI 据此理解页面、规划操作
  • AI 能操作:真实点击、输入、滚动、上传下载,和人手操作等效
  • 不挡你提问:面板嵌在终端右上角,AI 操作浏览器时你照常打字

两种打开方式

触发来源形态特点
AI 驱动(终端里 AI 调用)嵌入面板,贴在主窗右上角不挡提问区,跟随主窗
你手动点 🌐独立窗口可拖出主窗、自由摆放

两种窗口都有一个唯一标识符(label)。把标识符复制给另一个会话,别的会话里的 AI 也能找到同一个窗口接着操作,实现跨会话共享与接管。

嵌入式三态面板

AI 打开的嵌入面板有三种状态,随时切换:

状态样子用途
小窗右上角一小块默认,看一眼、AI 后台操作
最大化铺满整个主窗需要你仔细看/手动操作时
最小化缩成一个小条暂时收起,点一下恢复

标题栏跟随主题

面板标题栏由主窗渲染,会跟随应用的明暗主题自动变色,并且永远不遮挡网页内容。

AI 能做什么

AI 经 MCP 工具驱动浏览器,覆盖网页自动化的完整能力:

类别能力
导航与感知打开网址、跳转、抓页面语义快照(标题/链接/按钮/输入框)、整页截图、单个元素截图、列出页面内的 iframe
交互操作真实点击、输入文本、悬停、设置下拉框、按键与组合键、滚动到元素/底部、自动应答 alert/confirm/prompt 弹窗
文件传输给文件框上传本地文件、把网页文件下载到本地(自动带登录 cookie)
登录态读写 cookie(含 httpOnly 登录凭证)、读写 localStorage/sessionStorage
数据获取按规则批量提取结构化数据、把 HTML 表格转成结构化数据、拦截/改写网络请求做接口 mock
测试闭环录制你的操作并重放、对页面状态执行断言(元素存在 / 文本匹配 / URL 包含 / 数量等)

典型场景

自动化测试——让 AI 打开你的网站走一遍关键流程,再断言结果:

「打开 example.com/login,用 test 账号登录,断言进入后台页且顶部显示用户名」

AI 会自己导航、填表、点提交、读取页面、给出每条断言的通过/失败。

数据获取——把页面列表或表格变成结构化数据:

「打开这个商品列表页,把每个商品的标题和价格提取出来」

前端联调——拦截接口返回假数据,测前端各种状态:

「mock /api/list 返回空数组,看页面的空状态显示是否正常」

查在线文档——AI 自己开网页查资料,不用你复制粘贴。

怎么用

直接用自然语言告诉终端里的 AI 你想做什么,AI 会自动选用合适的浏览器工具去操作。前提是该 AI 客户端已接入智码的 MCP 服务(设置 → MCP 接入 → 一键接入)。

登录态复用

内置浏览器有独立的持久存储:在某个站点登录一次,cookie 会被记住,关掉重开仍是登录状态。AI 也能把一个窗口的登录 cookie 导出、注入到另一个窗口,实现登录态跨窗复用,避免反复登录。

上手提示词

把下面这些话(网址换成你自己的)直接发给终端里的 AI,它就会驱动内置浏览器去做。不用记任何命令,自然语言描述需求即可。

浏览与查询

用浏览器打开 https://你的网址

打开 github.com 搜索 tauri,把前 5 个结果的标题和链接列给我

自动化测试

打开 http://localhost:3000/login ,用账号 test 密码 123456 登录,断言登录后跳到 /dashboard 且页面显示用户名

打开我的网站走一遍注册流程(随便填测试数据),告诉我哪一步报错或卡住

数据获取

打开这个商品列表页,把每个商品的名称、价格、链接提取成表格

打开这个数据表格页,把表格转成 JSON 给我

前端联调(接口 mock)

打开 http://localhost:3000 ,拦截 /api/list 让它返回空数组,看页面的空状态显示对不对

mock 这个接口返回 500 错误,测一下前端的错误提示是否正常

登录态复用

打开网站登录后,把登录用的 cookie 导出给我

在这个新窗口注入刚才那套 cookie,免登录直接进

录制回放与截图

我在浏览器里手动操作一遍,你录下来生成可重放的脚本

打开这个页面,截图给我看看现在长什么样

让 AI 自己摸索

不确定页面结构时,可以先说「打开这个页面,先看看上面有哪些按钮和输入框」,AI 会读取页面快照规划后续操作,你再让它继续点/填/读即可。

安全说明

  • 内置浏览器与应用主进程严格隔离:外部网页拿不到任何应用内部接口
  • AI 的浏览器操作全部经过 MCP 工具,每次调用都有审计记录
  • 下载文件落到应用缓存目录下按窗口隔离的子目录,不会污染你的系统下载夹

相关章节

给 AI 编程工具一个统一的家