Coe 深度研究:Linux 上的零 GUI 语音输入——按键说话,校正粘贴
> GitHub: quailyquaily/coe
> 原版(macOS): missuo/koe
> 技术: Go
> 研究时间: 2026-03-26
🎯 一句话版本
在 Linux GNOME/Wayland 上,按快捷键 → 说话 → 再按快捷键 → OpenAI 转录+校正 → 文字自动粘贴到当前应用。零 GUI,纯命令行,systemd 后台服务。macOS 上有 Koe,这是 Linux 的对等实现。
🔄 工作流
按快捷键(GNOME Custom Shortcut)
↓
pw-record 开始录音(PipeWire)
↓
再按快捷键 → 停止录音
↓
本地检查:静音/损坏? → 拦截,不发请求
↓
OpenAI ASR(gpt-4o-mini-transcribe)→ 原始转录
↓
OpenAI LLM(gpt-4o-mini)→ 文本校正/修饰
↓
Portal Clipboard → 自动粘贴到当前焦点应用
关键点:两步 AI 处理——先转录再校正。校正步骤用 LLM 修复转录错误、调整标点和格式。
🎯 设计原则
| 原则 | 实现 |
|---|---|
| **GNOME-first** | 原生 Portal API,不依赖 X11 |
| **Wayland-first** | 尊重 Wayland 安全模型 |
| **零 GUI** | 纯 YAML 配置 + CLI 命令 |
| **一件事做好** | 只做语音输入,不做其他 |
| **显式降级** | Portal 不可用时明确 fallback 到 wl-copy/ydotool |
🔧 技术细节
依赖
| 组件 | 用途 |
|---|---|
| `pw-record` | PipeWire 录音 |
| `wl-copy` | Wayland 剪贴板 |
| `ydotool` | 粘贴 fallback(可选) |
| OpenAI API | ASR + LLM 校正 |
配置
# ~/.config/coe/config.yaml
asr:
endpoint: https://api.openai.com/v1/audio/transcriptions
model: gpt-4o-mini-transcribe
llm:
endpoint: https://api.openai.com/v1/responses
model: gpt-4o-mini
recorder: pw-record
sample_rate: 16000
安装
git clone https://github.com/quailyquaily/coe.git
cd coe && go build -o coe ./cmd/coe
./scripts/install-user.sh # systemd user service
# 写入 API Key
echo "OPENAI_API_KEY=sk-xxx" > ~/.config/coe/env
systemctl --user restart coe.service
🆚 Coe vs Koe
| Coe (Linux) | Koe (macOS) | |
|---|---|---|
| 平台 | **GNOME/Wayland** | macOS |
| 语言 | Go | Go |
| 录音 | pw-record (PipeWire) | macOS Audio |
| 粘贴 | Portal clipboard | macOS pasteboard |
| 快捷键 | GNOME Custom Shortcut | macOS 全局热键 |
| ASR | OpenAI | OpenAI |
| LLM 校正 | ✅ | ✅ |
基本是 1:1 移植,但处理了 Wayland 安全模型带来的复杂性(Portal API、权限持久化等)。
💡 与我们的关联
1. 语音输入到 OpenClaw?
如果 Young 用 Linux 桌面,Coe 可以让你在任何应用里用语音输入——包括在 Discord 频道里直接说话转文字,不用打字。
2. ASR + LLM 校正的两步模式
Coe 的两步处理(先 ASR 转录,再 LLM 校正)和我们的 summarize CLI 类似,但更轻量。这个模式对中文尤其有价值——ASR 的同音字错误由 LLM 一键修复。
3. 可以替换成本地模型
虽然默认用 OpenAI,但 ASR 和 LLM 端点都是 OpenAI-compatible 的,理论上可以指向:
- ASR → ub2 上的 faster-whisper(需要包装成 OpenAI API 格式)
- LLM → ub2 上的 Ollama(Qwen3.5:27b)
这样就完全本地化,零 API 费用,隐私保护。
4. 工程参考
Go 写的 Linux 系统工具,处理 Wayland Portal API 的方式值得参考——很多工具在 Wayland 上就是用不了。
⚠️ 注意事项
1. 仅 GNOME Wayland:KDE/Hyprland/Sway 不支持
2. 仅 OpenAI API:默认需要付费 API Key
3. Alpha 阶段:功能还在完善中
4. 延迟:录音 → OpenAI 转录 → OpenAI 校正 → 粘贴,至少 2-3 秒
5. 中文支持未明确:README 没有提到多语言,但 OpenAI ASR 本身支持中文
📊 评分
| 维度 | 评分(/10) |
|---|---|
| 设计质量 | 8.5 — Wayland-first + Portal 优先 + 显式降级,工程严谨 |
| 实用性 | 7.5 — 解决真实痛点(Linux 语音输入),但平台限制多 |
| 创新性 | 6.5 — Koe 的 Linux 移植,思路不新但执行扎实 |
| 与我们的关联 | 6.5 — 如果用 Linux 桌面则有用,否则关联不大 |
| 完成度 | 7.0 — Alpha 阶段,核心流程可用 |
| **综合** | **7.0** |
报告由深度研究助手自动生成 | 2026-03-26
来源: GitHub