CyberVerse — 开源数字人 Agent 平台,一张照片就能创造能看能说的 AI

> 来源: https://github.com/dsd2077/CyberVerse

> 日期: 2026-05-18

> 评分: ★★★★☆ (4/5) — 功能完整的数字人 Agent 平台,多模态语音/视频交互

一句话版本

CyberVerse 是一个开源的数字人 Agent 平台——只需一张照片就能创造能看、能听、能说的 AI 数字人,像视频通话一样面对面交流,支持语音打断、长期记忆、知识库和多Agent协作。

项目概况

指标数据
**Stars****560** ⭐
Forks83
语言Python + Node.js + Go
许可证GPL-3.0
创建时间2026-04-18(约 1 个月)
多语言🇺🇸 🇨🇳 🇯🇵 🇰🇷
Demo 视频YouTube(Alice / Lina / 小龙女)
作者dsd2077(中国开发者)

核心理念

> "一张照片,让 AI 活起来。"

CyberVerse 的目标是让每个人都能创造属于自己的 J.A.R.V.I.S.——能看见你、听见你、实时对话回来的 AI。

场景

核心功能

🎙️ 实时语音 Agent(默认交互)

🎥 数字人视频(可选)

🧠 多 Agent 架构


PersonaAgent(前台) ←→ SubAgent(后台)

💾 角色记忆 + RAG

🔌 插件式架构

六个模块全部可替换:

Brain · Voice · Hearing · Tools · Memory · Face

在 Web UI /settings 中切换不同供应商的 API key 和服务端点。

技术栈

技术
前端Node 18+
后端Go 1.25+(protoc-gen-go/gRPC)
AI 推理Python 3.10+, Conda
实时通信WebRTC (P2P) / LiveKit (SFU)
视频模型FlashHead / LiveAct
LLMQwen 系列 / Doubao 系列

支持模型提供商:阿里云 DashScope、火山引擎豆包

豆包(火山引擎)技术集成详解

CyberVerse 深度集成了豆包的 SC2.0 Realtime Voice LLM,作为默认的语音对话引擎(PersonaAgent 默认 provider)。

核心:豆包 Realtime Voice LLM(SC2.0)

豆包的实时语音多模态模型,在一个 WebSocket 连接中同时处理 ASR(语音识别)+ LLM(对话生成)+ TTS(语音合成),实现低延迟的语音对话。

参数
WebSocket 端点`wss://openspeech.bytedance.com/api/v3/realtime/dialogue`
模型版本`2.2.0.0`
插件注册名`omni.doubao`
音频格式PCM s16le, 24kHz
协议自定义二进制帧协议 + gzip 压缩
资源标识`volc.speech.dialog`

21 种 TTS 声线(Saturn SC2.0 系列)

女性声线(11种)男性声线(10种)
傲娇女友、冰娇姐姐、成熟姐姐爱气凌人、傲娇公子、傲娇精英
可爱女生、暖心学姐、贴心女友傲慢少爷、霸道少爷、冰娇白莲
温柔文雅、妩媚御姐、性感御姐不羁青年、成熟总裁、磁性男嗓
醋精男友、风发少年、腹黑公子

每种角色可在管理界面自由切换声线。

代码量

豆包集成相关代码约 1,972 行

文件行数功能
`doubao_realtime.py`726WebSocket 连接管理、事件循环、音频流处理
`persona_agent.py`672PersonaAgent 逻辑,默认走 doubao 引擎
`doubao_protocol.py`298二进制帧编码/解码协议实现
`doubao_config.py`276配置解析 + 21 种声线定义

配置方式

.env 中配置后即可使用:


DOUBAO_ACCESS_TOKEN=your_token
DOUBAO_APP_ID=your_app_id
DOUBAO_WS_URL=wss://openspeech.bytedance.com/api/v3/realtime/dialogue

快速启动


git clone https://github.com/dsd2077/CyberVerse.git
cd CyberVerse
conda create -n cyberverse python=3.10
conda activate cyberverse
# 配置 API key → cp infra/.env.example .env

依赖较多(Node/Go/Python/protoc/FFmpeg),但架构清晰。

同类对比

维度CyberVerseOpenHumanOpenClaw
定位**数字人平台**个人 AI 助手Agent 运行时
交互方式**语音+视频通话**桌面 App + MascotWeb Dashboard
数字人形象✅ 照片驱动面部动画✅ 桌面 Mascot
语音打断
多Agent✅ Persona+SubAgent
需要 GPU纯语音不须,视频需要本地 LLM 可选不须
Stars56015.8K~50K+

评分表

维度评分说明
产品理念★★★★★"一张照片让 AI 活起来"很有感染力
功能完整性★★★★☆语音/视频/记忆/RAG/多Agent,该有的都有
实现难度★★★★★WebRTC + 数字人 + 多Agent,技术栈复杂
部署体验★★☆☆☆依赖多(Node/Go/Python/protoc/FFmpeg/Conda)
用户量★★★☆☆560 stars / 1 个月,增长不错
技术文档★★★★☆多语言 README,架构说明清晰
**综合****★★★★☆**功能最完整的开源数字人平台之一

资源链接