CyberVerse — 开源数字人 Agent 平台，一张照片就能创造能看能说的 AI

> 来源: https://github.com/dsd2077/CyberVerse

> 日期: 2026-05-18

> 评分: ★★★★☆ (4/5) — 功能完整的数字人 Agent 平台，多模态语音/视频交互

一句话版本

CyberVerse 是一个开源的数字人 Agent 平台——只需一张照片就能创造能看、能听、能说的 AI 数字人，像视频通话一样面对面交流，支持语音打断、长期记忆、知识库和多Agent协作。

项目概况

指标	数据
Stars	560 ⭐
Forks	83
语言	Python + Node.js + Go
许可证	GPL-3.0
创建时间	2026-04-18（约 1 个月）
多语言	🇺🇸 🇨🇳 🇯🇵 🇰🇷
Demo 视频	YouTube（Alice / Lina / 小龙女）
作者	dsd2077（中国开发者）

核心理念

> "一张照片，让 AI 活起来。"

CyberVerse 的目标是让每个人都能创造属于自己的 J.A.R.V.I.S.——能看见你、听见你、实时对话回来的 AI。

场景

让已故亲人通过一张旧照片"回来"，听到他们的声音、看到他们微笑
把喜欢的虚拟角色带入现实
创造自己的 AI 数字助手

核心功能

🎙️ 实时语音 Agent（默认交互）

WebRTC 低延迟实时对话
支持语音打断——模型正在说话时用户可以直接插话
语音 + 文本混合输入
每种角色可独立配置声音、欢迎语、人格
纯语音模式（无需 GPU）可用

🎥 数字人视频（可选）

一张照片驱动实时面部动画和口型同步
后端：FlashHead / LiveAct
缓存空闲视频播放
需要 GPU
无 GPU 时关闭即可回到纯语音模式

🧠 多 Agent 架构


PersonaAgent（前台） ←→ SubAgent（后台）

PersonaAgent：保持流畅对话，快速响应中断，处理上下文切换
SubAgent：后台执行搜索、研究、整理、总结、HTML 报告等耗时任务
用户可继续说话、追问、调整方向，PersonaAgent 在结果就绪时返回

💾 角色记忆 + RAG

对话历史本地持久化，跨会话自动加载
支持导入知识库、文档、生平资料
检索增强生成（RAG）使答案更贴合角色背景

🔌 插件式架构

六个模块全部可替换：

Brain · Voice · Hearing · Tools · Memory · Face

在 Web UI /settings 中切换不同供应商的 API key 和服务端点。

技术栈

层	技术
前端	Node 18+
后端	Go 1.25+（protoc-gen-go/gRPC）
AI 推理	Python 3.10+, Conda
实时通信	WebRTC (P2P) / LiveKit (SFU)
视频模型	FlashHead / LiveAct
LLM	Qwen 系列 / Doubao 系列

支持模型提供商：阿里云 DashScope、火山引擎豆包

豆包（火山引擎）技术集成详解

CyberVerse 深度集成了豆包的 SC2.0 Realtime Voice LLM，作为默认的语音对话引擎（PersonaAgent 默认 provider）。

核心：豆包 Realtime Voice LLM（SC2.0）

豆包的实时语音多模态模型，在一个 WebSocket 连接中同时处理 ASR（语音识别）+ LLM（对话生成）+ TTS（语音合成），实现低延迟的语音对话。

参数	值
WebSocket 端点	`wss://openspeech.bytedance.com/api/v3/realtime/dialogue`
模型版本	`2.2.0.0`
插件注册名	`omni.doubao`
音频格式	PCM s16le, 24kHz
协议	自定义二进制帧协议 + gzip 压缩
资源标识	`volc.speech.dialog`

21 种 TTS 声线（Saturn SC2.0 系列）

女性声线（11种）	男性声线（10种）
傲娇女友、冰娇姐姐、成熟姐姐	爱气凌人、傲娇公子、傲娇精英
可爱女生、暖心学姐、贴心女友	傲慢少爷、霸道少爷、冰娇白莲
温柔文雅、妩媚御姐、性感御姐	不羁青年、成熟总裁、磁性男嗓
	醋精男友、风发少年、腹黑公子

每种角色可在管理界面自由切换声线。

代码量

豆包集成相关代码约 1,972 行：

文件	行数	功能
`doubao_realtime.py`	726	WebSocket 连接管理、事件循环、音频流处理
`persona_agent.py`	672	PersonaAgent 逻辑，默认走 doubao 引擎
`doubao_protocol.py`	298	二进制帧编码/解码协议实现
`doubao_config.py`	276	配置解析 + 21 种声线定义

配置方式

在 .env 中配置后即可使用：


DOUBAO_ACCESS_TOKEN=your_token
DOUBAO_APP_ID=your_app_id
DOUBAO_WS_URL=wss://openspeech.bytedance.com/api/v3/realtime/dialogue

快速启动


git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse
conda create -n cyberverse python=3.10
conda activate cyberverse
# 配置 API key → cp infra/.env.example .env

依赖较多（Node/Go/Python/protoc/FFmpeg），但架构清晰。

维度	CyberVerse	OpenHuman	OpenClaw
定位	数字人平台	个人 AI 助手	Agent 运行时
交互方式	语音+视频通话	桌面 App + Mascot	Web Dashboard
数字人形象	✅ 照片驱动面部动画	✅ 桌面 Mascot	❌
语音打断	✅	❌	❌
多Agent	✅ Persona+SubAgent	❌	✅
需要 GPU	纯语音不须，视频需要	本地 LLM 可选	不须
Stars	560	15.8K	~50K+

评分表

维度	评分	说明
产品理念	★★★★★	"一张照片让 AI 活起来"很有感染力
功能完整性	★★★★☆	语音/视频/记忆/RAG/多Agent，该有的都有
实现难度	★★★★★	WebRTC + 数字人 + 多Agent，技术栈复杂
部署体验	★★☆☆☆	依赖多（Node/Go/Python/protoc/FFmpeg/Conda）
用户量	★★★☆☆	560 stars / 1 个月，增长不错
技术文档	★★★★☆	多语言 README，架构说明清晰
综合	★★★★☆	功能最完整的开源数字人平台之一

资源链接

GitHub: https://github.com/dsd2077/CyberVerse
演示视频: YouTube（项目 README 中链接）
模型: 阿里云 DashScope / 火山引擎 Doubao
协议: GPL-3.0