内置浏览器自动化
内置一块 AI 可以直接驱动的浏览器面板——终端里的 AI 能自己打开网页、点击、填表、读取数据、跑自动化测试。查文档、测网页、抓数据、验登录流程这些过去要你手动来的事,现在交给 AI 在浏览器里完成。
为什么需要
AI 编程时经常要和网页打交道:查在线文档、测试自己写的前端、获取页面数据、验证登录注册流程。过去 AI「看不到」浏览器,只能让你手动操作再把结果贴回来。内置浏览器自动化把浏览器接进了 AI 的工作闭环:
- AI 能看见:读取页面结构、截图,AI 据此理解页面、规划操作
- AI 能操作:真实点击、输入、滚动、上传下载,和人手操作等效
- 不挡你提问:面板嵌在终端右上角,AI 操作浏览器时你照常打字
两种打开方式
| 触发来源 | 形态 | 特点 |
|---|---|---|
| AI 驱动(终端里 AI 调用) | 嵌入面板,贴在主窗右上角 | 不挡提问区,跟随主窗 |
| 你手动点 🌐 | 独立窗口 | 可拖出主窗、自由摆放 |
两种窗口都有一个唯一标识符(label)。把标识符复制给另一个会话,别的会话里的 AI 也能找到同一个窗口接着操作,实现跨会话共享与接管。
嵌入式三态面板
AI 打开的嵌入面板有三种状态,随时切换:
| 状态 | 样子 | 用途 |
|---|---|---|
| 小窗 | 右上角一小块 | 默认,看一眼、AI 后台操作 |
| 最大化 | 铺满整个主窗 | 需要你仔细看/手动操作时 |
| 最小化 | 缩成一个小条 | 暂时收起,点一下恢复 |
标题栏跟随主题
面板标题栏由主窗渲染,会跟随应用的明暗主题自动变色,并且永远不遮挡网页内容。
AI 能做什么
AI 经 MCP 工具驱动浏览器,覆盖网页自动化的完整能力:
| 类别 | 能力 |
|---|---|
| 导航与感知 | 打开网址、跳转、抓页面语义快照(标题/链接/按钮/输入框)、整页截图、单个元素截图、列出页面内的 iframe |
| 交互操作 | 真实点击、输入文本、悬停、设置下拉框、按键与组合键、滚动到元素/底部、自动应答 alert/confirm/prompt 弹窗 |
| 文件传输 | 给文件框上传本地文件、把网页文件下载到本地(自动带登录 cookie) |
| 登录态 | 读写 cookie(含 httpOnly 登录凭证)、读写 localStorage/sessionStorage |
| 数据获取 | 按规则批量提取结构化数据、把 HTML 表格转成结构化数据、拦截/改写网络请求做接口 mock |
| 测试闭环 | 录制你的操作并重放、对页面状态执行断言(元素存在 / 文本匹配 / URL 包含 / 数量等) |
典型场景
自动化测试——让 AI 打开你的网站走一遍关键流程,再断言结果:
「打开 example.com/login,用 test 账号登录,断言进入后台页且顶部显示用户名」
AI 会自己导航、填表、点提交、读取页面、给出每条断言的通过/失败。
数据获取——把页面列表或表格变成结构化数据:
「打开这个商品列表页,把每个商品的标题和价格提取出来」
前端联调——拦截接口返回假数据,测前端各种状态:
「mock /api/list 返回空数组,看页面的空状态显示是否正常」
查在线文档——AI 自己开网页查资料,不用你复制粘贴。
怎么用
直接用自然语言告诉终端里的 AI 你想做什么,AI 会自动选用合适的浏览器工具去操作。前提是该 AI 客户端已接入智码的 MCP 服务(设置 → MCP 接入 → 一键接入)。
登录态复用
内置浏览器有独立的持久存储:在某个站点登录一次,cookie 会被记住,关掉重开仍是登录状态。AI 也能把一个窗口的登录 cookie 导出、注入到另一个窗口,实现登录态跨窗复用,避免反复登录。
上手提示词
把下面这些话(网址换成你自己的)直接发给终端里的 AI,它就会驱动内置浏览器去做。不用记任何命令,自然语言描述需求即可。
浏览与查询
用浏览器打开 https://你的网址
打开 github.com 搜索 tauri,把前 5 个结果的标题和链接列给我
自动化测试
打开
http://localhost:3000/login,用账号 test 密码 123456 登录,断言登录后跳到 /dashboard 且页面显示用户名
打开我的网站走一遍注册流程(随便填测试数据),告诉我哪一步报错或卡住
数据获取
打开这个商品列表页,把每个商品的名称、价格、链接提取成表格
打开这个数据表格页,把表格转成 JSON 给我
前端联调(接口 mock)
打开
http://localhost:3000,拦截 /api/list 让它返回空数组,看页面的空状态显示对不对
mock 这个接口返回 500 错误,测一下前端的错误提示是否正常
登录态复用
打开网站登录后,把登录用的 cookie 导出给我
在这个新窗口注入刚才那套 cookie,免登录直接进
录制回放与截图
我在浏览器里手动操作一遍,你录下来生成可重放的脚本
打开这个页面,截图给我看看现在长什么样
让 AI 自己摸索
不确定页面结构时,可以先说「打开这个页面,先看看上面有哪些按钮和输入框」,AI 会读取页面快照规划后续操作,你再让它继续点/填/读即可。
安全说明
- 内置浏览器与应用主进程严格隔离:外部网页拿不到任何应用内部接口
- AI 的浏览器操作全部经过 MCP 工具,每次调用都有审计记录
- 下载文件落到应用缓存目录下按窗口隔离的子目录,不会污染你的系统下载夹
相关章节
- 接入外部 AI(MCP 服务)——让终端 AI 能调用浏览器工具的前提
- 多标签会话管理——浏览器面板与会话标签的协作
