Skip to content

云端语音输入

让 AI 听你说话,而不是手敲键盘。

智码 AICoder 内置阿里云百炼的 DashScope ASR 引擎(qwen3-asr-flash 模型),在终端中长按快捷键说话,识别完成后自动写入当前活跃终端,无需弹窗确认、无需手动复制粘贴。

三种触发方式

方式适用场景说明
状态栏麦克风按钮鼠标顺手右下角悬浮麦克风图标,点击开始录音(变 3 条柱波形 + 红色脉动),再次点击识别并写入
终端内按住 F2终端聚焦时按住 F2 开始录音,松开停止;只在终端获得焦点时生效,不影响其他输入框
全局快捷键 Alt+X任意窗口默认 Alt+X(避开 Windows Alt+Space 系统菜单),任何应用都能录音并写入当前活跃终端

全局快捷键可改键

设置 → 快捷键 → 「全局语音录音」可重新录制。建议避开常用组合(如 Alt+Tab / Ctrl+Space)。

ASR 引擎配置

在「设置 → 通用 → 语音输入」中配置:

字段选项
启用语音组件总开关,关闭后所有语音入口隐藏(v3.2.2 新增)
API Key阿里云百炼 DashScope 密钥
模型qwen3-asr-flash(默认,速度优先)
区域北京 / 新加坡(按你的网络选最近节点)

为什么是 DashScope

百炼 ASR 提供 OpenAI 兼容端点 + base64 直传,识别准确率高、延迟低(qwen3-asr-flash 通常 < 2s 返回结果),且支持中英混合语音。

灵动岛 Overlay UI

按下快捷键后,屏幕底部出现"灵动岛"风格的胶囊浮窗:

  • 录音中 — 显示音量峰值波形,红色脉动光晕
  • 识别中 — 显示加载圈 + 文本占位
  • 识别完成 — 显示识别文本预览,自动消失
  • 空闲 — 不渲染(不占任何屏幕区域)

胶囊会自动避开屏幕边缘,多显示器场景下停在主屏中央偏下。

提示词术语词典

ASR 引擎对你的项目术语不熟悉?可以提供术语词典提升识别准确率:

  • 设置 → 语音输入 → 提示词术语词典
  • 每行一个术语,如:Tauri / 智码 / Codex / Anthropic / Gemini
  • 录音时词典作为上下文 prompt 传给 ASR,常见误识别(如"踏入瑞" → "Tauri")会被纠正

语音历史记录

每次「识别 → 注入」流程的结果可保留为历史记录(v3.2.4 新增独立窗口):

字段说明
原始识别文本ASR 返回的原文(未润色)
最终注入文本写入终端的最终内容(如启用润色,可能与原文不同)
来源inApp(终端按 F2)/ global(全局快捷键)/ global-assistant(带润色 skill)
润色 Skill ID使用的 AI 润色 skill(如有)
实例 ID多开实例下隔离展示,不会串场
时间创建时间

历史窗口可独立弹出,30 秒上限的限制也在此页直观展示(避免长录音误触发)。设置中可关闭历史记录或调整保留条数(10–5000)。

录音边界与体验细节

边界行为
单次录音 30 秒上限防止快捷键卡住导致超长录音;超时后自动停止并识别
重按快捷键录音中再次按下 = 取消当次录音(不识别、不注入)
PTT(按住说话)事件去重F2 按下/释放事件经过去重,避免按键回弹时重复触发
ASR 末尾标点清理识别结果末尾的句号 / 问号写入终端时自动去除(v3.2.4),避免给 AI 多发一个字符的歧义
xterm 焦点判定快捷键触发时焦点保持在 xterm helper textarea 上,正确识别为终端而非普通输入框

多实例隔离

多开模式下每个实例的 API Key、ASR 配置、语音历史完全独立——公司账号配新加坡区域、个人账号配北京区域,互不干扰。

与 AI 润色协同

可选启用「AI 润色」skill:

  • ASR 识别原文 → 调用润色 skill(如 voice-polish)→ 生成更自然的指令
  • 例如:"那个 啊 帮我看看 这个 useEffect 为啥不触发" → "请帮我排查这个 useEffect 为什么不触发"
  • 历史记录中保留原文和润色文本两份

何时关闭润色

快速发指令时可关掉润色,少一次 AI 往返 → 更快。复杂、多停顿的口语化输入时打开。

相关章节

给 AI 编程工具一个统一的家