CyberVerse — 开源数字人 Agent 平台,一张照片就能创造能看能说的 AI
> 来源: https://github.com/dsd2077/CyberVerse
> 日期: 2026-05-18
> 评分: ★★★★☆ (4/5) — 功能完整的数字人 Agent 平台,多模态语音/视频交互
一句话版本
CyberVerse 是一个开源的数字人 Agent 平台——只需一张照片就能创造能看、能听、能说的 AI 数字人,像视频通话一样面对面交流,支持语音打断、长期记忆、知识库和多Agent协作。
项目概况
| 指标 | 数据 |
|---|---|
| **Stars** | **560** ⭐ |
| Forks | 83 |
| 语言 | Python + Node.js + Go |
| 许可证 | GPL-3.0 |
| 创建时间 | 2026-04-18(约 1 个月) |
| 多语言 | 🇺🇸 🇨🇳 🇯🇵 🇰🇷 |
| Demo 视频 | YouTube(Alice / Lina / 小龙女) |
| 作者 | dsd2077(中国开发者) |
核心理念
> "一张照片,让 AI 活起来。"
CyberVerse 的目标是让每个人都能创造属于自己的 J.A.R.V.I.S.——能看见你、听见你、实时对话回来的 AI。
场景
- 让已故亲人通过一张旧照片"回来",听到他们的声音、看到他们微笑
- 把喜欢的虚拟角色带入现实
- 创造自己的 AI 数字助手
核心功能
🎙️ 实时语音 Agent(默认交互)
- WebRTC 低延迟实时对话
- 支持语音打断——模型正在说话时用户可以直接插话
- 语音 + 文本混合输入
- 每种角色可独立配置声音、欢迎语、人格
- 纯语音模式(无需 GPU)可用
🎥 数字人视频(可选)
- 一张照片驱动实时面部动画和口型同步
- 后端:FlashHead / LiveAct
- 缓存空闲视频播放
- 需要 GPU
- 无 GPU 时关闭即可回到纯语音模式
🧠 多 Agent 架构
PersonaAgent(前台) ←→ SubAgent(后台)
- PersonaAgent:保持流畅对话,快速响应中断,处理上下文切换
- SubAgent:后台执行搜索、研究、整理、总结、HTML 报告等耗时任务
- 用户可继续说话、追问、调整方向,PersonaAgent 在结果就绪时返回
💾 角色记忆 + RAG
- 对话历史本地持久化,跨会话自动加载
- 支持导入知识库、文档、生平资料
- 检索增强生成(RAG)使答案更贴合角色背景
🔌 插件式架构
六个模块全部可替换:
Brain · Voice · Hearing · Tools · Memory · Face
在 Web UI /settings 中切换不同供应商的 API key 和服务端点。
技术栈
| 层 | 技术 |
|---|---|
| 前端 | Node 18+ |
| 后端 | Go 1.25+(protoc-gen-go/gRPC) |
| AI 推理 | Python 3.10+, Conda |
| 实时通信 | WebRTC (P2P) / LiveKit (SFU) |
| 视频模型 | FlashHead / LiveAct |
| LLM | Qwen 系列 / Doubao 系列 |
支持模型提供商:阿里云 DashScope、火山引擎豆包
豆包(火山引擎)技术集成详解
CyberVerse 深度集成了豆包的 SC2.0 Realtime Voice LLM,作为默认的语音对话引擎(PersonaAgent 默认 provider)。
核心:豆包 Realtime Voice LLM(SC2.0)
豆包的实时语音多模态模型,在一个 WebSocket 连接中同时处理 ASR(语音识别)+ LLM(对话生成)+ TTS(语音合成),实现低延迟的语音对话。
| 参数 | 值 |
|---|---|
| WebSocket 端点 | `wss://openspeech.bytedance.com/api/v3/realtime/dialogue` |
| 模型版本 | `2.2.0.0` |
| 插件注册名 | `omni.doubao` |
| 音频格式 | PCM s16le, 24kHz |
| 协议 | 自定义二进制帧协议 + gzip 压缩 |
| 资源标识 | `volc.speech.dialog` |
21 种 TTS 声线(Saturn SC2.0 系列)
| 女性声线(11种) | 男性声线(10种) |
|---|---|
| 傲娇女友、冰娇姐姐、成熟姐姐 | 爱气凌人、傲娇公子、傲娇精英 |
| 可爱女生、暖心学姐、贴心女友 | 傲慢少爷、霸道少爷、冰娇白莲 |
| 温柔文雅、妩媚御姐、性感御姐 | 不羁青年、成熟总裁、磁性男嗓 |
| 醋精男友、风发少年、腹黑公子 |
每种角色可在管理界面自由切换声线。
代码量
豆包集成相关代码约 1,972 行:
| 文件 | 行数 | 功能 |
|---|---|---|
| `doubao_realtime.py` | 726 | WebSocket 连接管理、事件循环、音频流处理 |
| `persona_agent.py` | 672 | PersonaAgent 逻辑,默认走 doubao 引擎 |
| `doubao_protocol.py` | 298 | 二进制帧编码/解码协议实现 |
| `doubao_config.py` | 276 | 配置解析 + 21 种声线定义 |
配置方式
在 .env 中配置后即可使用:
DOUBAO_ACCESS_TOKEN=your_token
DOUBAO_APP_ID=your_app_id
DOUBAO_WS_URL=wss://openspeech.bytedance.com/api/v3/realtime/dialogue
快速启动
git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse
conda create -n cyberverse python=3.10
conda activate cyberverse
# 配置 API key → cp infra/.env.example .env
依赖较多(Node/Go/Python/protoc/FFmpeg),但架构清晰。
同类对比
| 维度 | CyberVerse | OpenHuman | OpenClaw |
|---|---|---|---|
| 定位 | **数字人平台** | 个人 AI 助手 | Agent 运行时 |
| 交互方式 | **语音+视频通话** | 桌面 App + Mascot | Web Dashboard |
| 数字人形象 | ✅ 照片驱动面部动画 | ✅ 桌面 Mascot | ❌ |
| 语音打断 | ✅ | ❌ | ❌ |
| 多Agent | ✅ Persona+SubAgent | ❌ | ✅ |
| 需要 GPU | 纯语音不须,视频需要 | 本地 LLM 可选 | 不须 |
| Stars | 560 | 15.8K | ~50K+ |
评分表
| 维度 | 评分 | 说明 |
|---|---|---|
| 产品理念 | ★★★★★ | "一张照片让 AI 活起来"很有感染力 |
| 功能完整性 | ★★★★☆ | 语音/视频/记忆/RAG/多Agent,该有的都有 |
| 实现难度 | ★★★★★ | WebRTC + 数字人 + 多Agent,技术栈复杂 |
| 部署体验 | ★★☆☆☆ | 依赖多(Node/Go/Python/protoc/FFmpeg/Conda) |
| 用户量 | ★★★☆☆ | 560 stars / 1 个月,增长不错 |
| 技术文档 | ★★★★☆ | 多语言 README,架构说明清晰 |
| **综合** | **★★★★☆** | 功能最完整的开源数字人平台之一 |
资源链接
- GitHub: https://github.com/dsd2077/CyberVerse
- 演示视频: YouTube(项目 README 中链接)
- 模型: 阿里云 DashScope / 火山引擎 Doubao
- 协议: GPL-3.0