云端语音输入

让 AI 听你说话，而不是手敲键盘。

智码 AICoder 内置阿里云百炼的 DashScope ASR 引擎（qwen3-asr-flash 模型），在终端中长按快捷键说话，识别完成后自动写入当前活跃终端，无需弹窗确认、无需手动复制粘贴。

三种触发方式

方式	适用场景	说明
状态栏麦克风按钮	鼠标顺手	右下角悬浮麦克风图标，点击开始录音（变 3 条柱波形 + 红色脉动），再次点击识别并写入
终端内按住 `F2`	终端聚焦时	按住 F2 开始录音，松开停止；只在终端获得焦点时生效，不影响其他输入框
全局快捷键 `Alt+X`	任意窗口	默认 `Alt+X`（避开 Windows `Alt+Space` 系统菜单），任何应用都能录音并写入当前活跃终端

全局快捷键可改键

设置 → 快捷键 → 「全局语音录音」可重新录制。建议避开常用组合（如 Alt+Tab / Ctrl+Space）。

ASR 引擎配置

在「设置 → 通用 → 语音输入」中配置：

字段	选项
启用语音组件	总开关，关闭后所有语音入口隐藏（v3.2.2 新增）
API Key	阿里云百炼 DashScope 密钥
模型	`qwen3-asr-flash`（默认，速度优先）
区域	北京 / 新加坡（按你的网络选最近节点）

为什么是 DashScope

百炼 ASR 提供 OpenAI 兼容端点 + base64 直传，识别准确率高、延迟低（qwen3-asr-flash 通常 < 2s 返回结果），且支持中英混合语音。

灵动岛 Overlay UI

按下快捷键后，屏幕底部出现"灵动岛"风格的胶囊浮窗：

录音中 — 显示音量峰值波形，红色脉动光晕
识别中 — 显示加载圈 + 文本占位
识别完成 — 显示识别文本预览，自动消失
空闲 — 不渲染（不占任何屏幕区域）

胶囊会自动避开屏幕边缘，多显示器场景下停在主屏中央偏下。

提示词术语词典

ASR 引擎对你的项目术语不熟悉？可以提供术语词典提升识别准确率：

设置 → 语音输入 → 提示词术语词典
每行一个术语，如：Tauri / 智码 / Codex / Anthropic / Gemini
录音时词典作为上下文 prompt 传给 ASR，常见误识别（如"踏入瑞" → "Tauri"）会被纠正

语音历史记录

每次「识别 → 注入」流程的结果可保留为历史记录（v3.2.4 新增独立窗口）：

字段	说明
原始识别文本	ASR 返回的原文（未润色）
最终注入文本	写入终端的最终内容（如启用润色，可能与原文不同）
来源	inApp（终端按 F2）/ global（全局快捷键）/ global-assistant（带润色 skill）
润色 Skill ID	使用的 AI 润色 skill（如有）
实例 ID	多开实例下隔离展示，不会串场
时间	创建时间

历史窗口可独立弹出，30 秒上限的限制也在此页直观展示（避免长录音误触发）。设置中可关闭历史记录或调整保留条数（10–5000）。

录音边界与体验细节

边界	行为
单次录音 30 秒上限	防止快捷键卡住导致超长录音；超时后自动停止并识别
重按快捷键	录音中再次按下 = 取消当次录音（不识别、不注入）
PTT（按住说话）事件去重	F2 按下/释放事件经过去重，避免按键回弹时重复触发
ASR 末尾标点清理	识别结果末尾的句号 / 问号写入终端时自动去除（v3.2.4），避免给 AI 多发一个字符的歧义
xterm 焦点判定	快捷键触发时焦点保持在 xterm helper textarea 上，正确识别为终端而非普通输入框

多实例隔离

多开模式下每个实例的 API Key、ASR 配置、语音历史完全独立——公司账号配新加坡区域、个人账号配北京区域，互不干扰。

与 AI 润色协同

可选启用「AI 润色」skill：

ASR 识别原文 → 调用润色 skill（如 voice-polish）→ 生成更自然的指令
例如："那个啊帮我看看这个 useEffect 为啥不触发" → "请帮我排查这个 useEffect 为什么不触发"
历史记录中保留原文和润色文本两份

何时关闭润色

快速发指令时可关掉润色，少一次 AI 往返 → 更快。复杂、多停顿的口语化输入时打开。

云端语音输入 ​

三种触发方式 ​

ASR 引擎配置 ​

灵动岛 Overlay UI ​

提示词术语词典 ​

语音历史记录 ​

录音边界与体验细节 ​

多实例隔离 ​

与 AI 润色协同 ​

相关章节 ​