VideoRAG — HKUDS 的极长视频 RAG 框架(KDD'2026)
来源: https://github.com/HKUDS/VideoRAG
日期: 2026-05-19
评分: ⭐⭐⭐⭐ (4/5)
一句话版本
VideoRAG 是港大数据科学实验室(HKUDS)开源的视频对话框架,让你可以像跟 ChatGPT 聊天一样跟几百小时的视频对话——单张 RTX 3090 就能跑,已获 KDD 2026 接收。
核心内容
项目概览
| 指标 | 数据 |
|---|---|
| **论文** | KDD'2026, arXiv:2502.01549 |
| **Stars** | 3k |
| **技术栈** | Python (57.6%) + TypeScript (40.9%) |
| **硬件** | 单张 RTX 3090 (24GB) |
| **实验室** | HKUDS(港大数据科学实验室) |
视频理解 + RAG
VideoRAG 的核心是一个双通道架构:
1. 图驱动知识索引: 用多模态知识图谱做结构化视频理解
2. 层次化上下文编码: 保留长序列的时空视觉模式
3. 自适应检索: 针对视频内容优化的动态检索机制
4. 跨视频理解: 多视频间的语义关系建模
Vimo Desktop(配套桌面应用)
带 Electron 桌面应用(跨平台):
- 拖放上传视频文件
- 自然语言对话式查询
- 支持 MP4/MKV/AVI 等格式
- 多视频同时分析
- 导出见解和引用
LongerVideos 基准
| 类型 | 视频数 | 查询数 | 时长 |
|---|---|---|---|
| 讲座 | 135 | 376 | ~64.3 小时 |
| 纪录片 | 12 | 114 | ~28.5 小时 |
| 娱乐 | 17 | 112 | ~41.9 小时 |
| **总计** | **164** | **602** | **~134.6 小时** |
性能
在 Video-MME Long Video 基准上:
| 模型 | 准确率 |
|---|---|
| MiniCPM-o w/o subs | 52.2% |
| MiniCPM-o w/ subs | 56.3% |
| MiniCPM-V w/ subs | 56.3% |
| **VideoRAG** | **60.2%** |
底层使用了 MiniCPM-o/V 等视觉语言模型,加上 RAG 框架后显著提升。
分析
为什么重要
1. 极长视频处理 — "几百小时"这个数字很夸张。以前视频理解基本停留在几分钟级别
2. 单卡可用 — RTX 3090 就能跑,降低了门槛
3. 图驱动的 RAG — 用知识图谱做视频索引是个新思路,比纯 embedding 检索更适合结构化理解
4. KDD 接收 — 顶会背书
5. 配套桌面应用 Vimo — 不只是论文/算法,有实际可用的产品
与 visual-base 的连接点
刚看了 visual-base(屏幕录像 + AI 日志),现在看 VideoRAG(视频 RAG)。这两个项目指向一个更大的趋势:视频正在变成 AI Agent 的事实数据源。
- visual-base 解决"怎么录"的问题
- VideoRAG 解决"录完了怎么用"的问题
- 两者结合 = 全量录屏 → 随时用自然语言查询
与我们的关联
- HKUDS 是 Nanobot、OpenHarness 的出品方,风格一致——论文 + 开源代码 + 桌面应用
- 视频 RAG 对深度研究报告中的视频/讲座分析场景可能有用
- 图驱动的知识索引方式与我们的知识库思路有交叉
潜在不足
- 准确性:60.2% 虽然比基线好,但远谈不上可靠
- 实时性:处理百小时视频需要在单卡上跑很长时间的索引
- 桌面应用:Beta 未发布,目前需从源码跑
评分表
| 维度 | 评分 | 说明 |
|---|---|---|
| 创新性 | ⭐⭐⭐⭐ | 图驱动视频 RAG,思路清晰 |
| 技术实现 | ⭐⭐⭐⭐ | 单卡跑百小时视频,工程不错 |
| 论文质量 | ⭐⭐⭐⭐ | KDD'2026,基准覆盖 134 小时 |
| 实用性 | ⭐⭐⭐ | Beta 未发布,准确性~60% |
| 与我们关联 | ⭐⭐⭐ | 视频 Agent 数据源方向有参考价值 |
关键链接
- https://github.com/HKUDS/VideoRAG — GitHub 仓库(3k stars)
- https://arxiv.org/abs/2502.01549 — 论文
- https://github.com/HKUDS/LightRAG — 底层图 RAG 框架
- https://learnopencv.com/videorag-long-context-video-comprehension/ — 教程