云端语音输入
让 AI 听你说话,而不是手敲键盘。
智码 AICoder 内置阿里云百炼的 DashScope ASR 引擎(qwen3-asr-flash 模型),在终端中长按快捷键说话,识别完成后自动写入当前活跃终端,无需弹窗确认、无需手动复制粘贴。
三种触发方式
| 方式 | 适用场景 | 说明 |
|---|---|---|
| 状态栏麦克风按钮 | 鼠标顺手 | 右下角悬浮麦克风图标,点击开始录音(变 3 条柱波形 + 红色脉动),再次点击识别并写入 |
终端内按住 F2 | 终端聚焦时 | 按住 F2 开始录音,松开停止;只在终端获得焦点时生效,不影响其他输入框 |
全局快捷键 Alt+X | 任意窗口 | 默认 Alt+X(避开 Windows Alt+Space 系统菜单),任何应用都能录音并写入当前活跃终端 |
全局快捷键可改键
设置 → 快捷键 → 「全局语音录音」可重新录制。建议避开常用组合(如 Alt+Tab / Ctrl+Space)。
ASR 引擎配置
在「设置 → 通用 → 语音输入」中配置:
| 字段 | 选项 |
|---|---|
| 启用语音组件 | 总开关,关闭后所有语音入口隐藏(v3.2.2 新增) |
| API Key | 阿里云百炼 DashScope 密钥 |
| 模型 | qwen3-asr-flash(默认,速度优先) |
| 区域 | 北京 / 新加坡(按你的网络选最近节点) |
为什么是 DashScope
百炼 ASR 提供 OpenAI 兼容端点 + base64 直传,识别准确率高、延迟低(qwen3-asr-flash 通常 < 2s 返回结果),且支持中英混合语音。
灵动岛 Overlay UI
按下快捷键后,屏幕底部出现"灵动岛"风格的胶囊浮窗:
- 录音中 — 显示音量峰值波形,红色脉动光晕
- 识别中 — 显示加载圈 + 文本占位
- 识别完成 — 显示识别文本预览,自动消失
- 空闲 — 不渲染(不占任何屏幕区域)
胶囊会自动避开屏幕边缘,多显示器场景下停在主屏中央偏下。
提示词术语词典
ASR 引擎对你的项目术语不熟悉?可以提供术语词典提升识别准确率:
- 设置 → 语音输入 → 提示词术语词典
- 每行一个术语,如:
Tauri / 智码 / Codex / Anthropic / Gemini - 录音时词典作为上下文 prompt 传给 ASR,常见误识别(如"踏入瑞" → "Tauri")会被纠正
语音历史记录
每次「识别 → 注入」流程的结果可保留为历史记录(v3.2.4 新增独立窗口):
| 字段 | 说明 |
|---|---|
| 原始识别文本 | ASR 返回的原文(未润色) |
| 最终注入文本 | 写入终端的最终内容(如启用润色,可能与原文不同) |
| 来源 | inApp(终端按 F2)/ global(全局快捷键)/ global-assistant(带润色 skill) |
| 润色 Skill ID | 使用的 AI 润色 skill(如有) |
| 实例 ID | 多开实例下隔离展示,不会串场 |
| 时间 | 创建时间 |
历史窗口可独立弹出,30 秒上限的限制也在此页直观展示(避免长录音误触发)。设置中可关闭历史记录或调整保留条数(10–5000)。
录音边界与体验细节
| 边界 | 行为 |
|---|---|
| 单次录音 30 秒上限 | 防止快捷键卡住导致超长录音;超时后自动停止并识别 |
| 重按快捷键 | 录音中再次按下 = 取消当次录音(不识别、不注入) |
| PTT(按住说话)事件去重 | F2 按下/释放事件经过去重,避免按键回弹时重复触发 |
| ASR 末尾标点清理 | 识别结果末尾的句号 / 问号写入终端时自动去除(v3.2.4),避免给 AI 多发一个字符的歧义 |
| xterm 焦点判定 | 快捷键触发时焦点保持在 xterm helper textarea 上,正确识别为终端而非普通输入框 |
多实例隔离
多开模式下每个实例的 API Key、ASR 配置、语音历史完全独立——公司账号配新加坡区域、个人账号配北京区域,互不干扰。
与 AI 润色协同
可选启用「AI 润色」skill:
- ASR 识别原文 → 调用润色 skill(如
voice-polish)→ 生成更自然的指令 - 例如:"那个 啊 帮我看看 这个 useEffect 为啥不触发" → "请帮我排查这个 useEffect 为什么不触发"
- 历史记录中保留原文和润色文本两份
何时关闭润色
快速发指令时可关掉润色,少一次 AI 往返 → 更快。复杂、多停顿的口语化输入时打开。
