VideoRAG — HKUDS 的极长视频 RAG 框架（KDD'2026）

来源: https://github.com/HKUDS/VideoRAG

日期: 2026-05-19

评分: ⭐⭐⭐⭐ (4/5)

一句话版本

VideoRAG 是港大数据科学实验室（HKUDS）开源的视频对话框架，让你可以像跟 ChatGPT 聊天一样跟几百小时的视频对话——单张 RTX 3090 就能跑，已获 KDD 2026 接收。

核心内容

项目概览

指标	数据
论文	KDD'2026, arXiv:2502.01549
Stars	3k
技术栈	Python (57.6%) + TypeScript (40.9%)
硬件	单张 RTX 3090 (24GB)
实验室	HKUDS（港大数据科学实验室）

视频理解 + RAG

VideoRAG 的核心是一个双通道架构：

1. 图驱动知识索引: 用多模态知识图谱做结构化视频理解

2. 层次化上下文编码: 保留长序列的时空视觉模式

3. 自适应检索: 针对视频内容优化的动态检索机制

4. 跨视频理解: 多视频间的语义关系建模

Vimo Desktop（配套桌面应用）

带 Electron 桌面应用（跨平台）：

拖放上传视频文件
自然语言对话式查询
支持 MP4/MKV/AVI 等格式
多视频同时分析
导出见解和引用

LongerVideos 基准

类型	视频数	查询数	时长
讲座	135	376	~64.3 小时
纪录片	12	114	~28.5 小时
娱乐	17	112	~41.9 小时
总计	164	602	~134.6 小时

性能

在 Video-MME Long Video 基准上：

模型	准确率
MiniCPM-o w/o subs	52.2%
MiniCPM-o w/ subs	56.3%
MiniCPM-V w/ subs	56.3%
VideoRAG	60.2%

底层使用了 MiniCPM-o/V 等视觉语言模型，加上 RAG 框架后显著提升。

分析

为什么重要

1. 极长视频处理 — "几百小时"这个数字很夸张。以前视频理解基本停留在几分钟级别

2. 单卡可用 — RTX 3090 就能跑，降低了门槛

3. 图驱动的 RAG — 用知识图谱做视频索引是个新思路，比纯 embedding 检索更适合结构化理解

4. KDD 接收 — 顶会背书

5. 配套桌面应用 Vimo — 不只是论文/算法，有实际可用的产品

与 visual-base 的连接点

刚看了 visual-base（屏幕录像 + AI 日志），现在看 VideoRAG（视频 RAG）。这两个项目指向一个更大的趋势：视频正在变成 AI Agent 的事实数据源。

visual-base 解决"怎么录"的问题
VideoRAG 解决"录完了怎么用"的问题
两者结合 = 全量录屏 → 随时用自然语言查询

与我们的关联

HKUDS 是 Nanobot、OpenHarness 的出品方，风格一致——论文 + 开源代码 + 桌面应用
视频 RAG 对深度研究报告中的视频/讲座分析场景可能有用
图驱动的知识索引方式与我们的知识库思路有交叉

潜在不足

准确性：60.2% 虽然比基线好，但远谈不上可靠
实时性：处理百小时视频需要在单卡上跑很长时间的索引
桌面应用：Beta 未发布，目前需从源码跑

评分表

维度	评分	说明
创新性	⭐⭐⭐⭐	图驱动视频 RAG，思路清晰
技术实现	⭐⭐⭐⭐	单卡跑百小时视频，工程不错
论文质量	⭐⭐⭐⭐	KDD'2026，基准覆盖 134 小时
实用性	⭐⭐⭐	Beta 未发布，准确性~60%
与我们关联	⭐⭐⭐	视频 Agent 数据源方向有参考价值

关键链接

https://github.com/HKUDS/VideoRAG — GitHub 仓库（3k stars）
https://arxiv.org/abs/2502.01549 — 论文
https://github.com/HKUDS/LightRAG — 底层图 RAG 框架
https://learnopencv.com/videorag-long-context-video-comprehension/ — 教程