VideoRAG — HKUDS 的极长视频 RAG 框架(KDD'2026)

来源: https://github.com/HKUDS/VideoRAG

日期: 2026-05-19

评分: ⭐⭐⭐⭐ (4/5)

一句话版本

VideoRAG 是港大数据科学实验室(HKUDS)开源的视频对话框架,让你可以像跟 ChatGPT 聊天一样跟几百小时的视频对话——单张 RTX 3090 就能跑,已获 KDD 2026 接收。

核心内容

项目概览

指标数据
**论文**KDD'2026, arXiv:2502.01549
**Stars**3k
**技术栈**Python (57.6%) + TypeScript (40.9%)
**硬件**单张 RTX 3090 (24GB)
**实验室**HKUDS(港大数据科学实验室)

视频理解 + RAG

VideoRAG 的核心是一个双通道架构

1. 图驱动知识索引: 用多模态知识图谱做结构化视频理解

2. 层次化上下文编码: 保留长序列的时空视觉模式

3. 自适应检索: 针对视频内容优化的动态检索机制

4. 跨视频理解: 多视频间的语义关系建模

Vimo Desktop(配套桌面应用)

带 Electron 桌面应用(跨平台):

LongerVideos 基准

类型视频数查询数时长
讲座135376~64.3 小时
纪录片12114~28.5 小时
娱乐17112~41.9 小时
**总计****164****602****~134.6 小时**

性能

在 Video-MME Long Video 基准上:

模型准确率
MiniCPM-o w/o subs52.2%
MiniCPM-o w/ subs56.3%
MiniCPM-V w/ subs56.3%
**VideoRAG****60.2%**

底层使用了 MiniCPM-o/V 等视觉语言模型,加上 RAG 框架后显著提升。

分析

为什么重要

1. 极长视频处理 — "几百小时"这个数字很夸张。以前视频理解基本停留在几分钟级别

2. 单卡可用 — RTX 3090 就能跑,降低了门槛

3. 图驱动的 RAG — 用知识图谱做视频索引是个新思路,比纯 embedding 检索更适合结构化理解

4. KDD 接收 — 顶会背书

5. 配套桌面应用 Vimo — 不只是论文/算法,有实际可用的产品

与 visual-base 的连接点

刚看了 visual-base(屏幕录像 + AI 日志),现在看 VideoRAG(视频 RAG)。这两个项目指向一个更大的趋势:视频正在变成 AI Agent 的事实数据源

与我们的关联

潜在不足

评分表

维度评分说明
创新性⭐⭐⭐⭐图驱动视频 RAG,思路清晰
技术实现⭐⭐⭐⭐单卡跑百小时视频,工程不错
论文质量⭐⭐⭐⭐KDD'2026,基准覆盖 134 小时
实用性⭐⭐⭐Beta 未发布,准确性~60%
与我们关联⭐⭐⭐视频 Agent 数据源方向有参考价值

关键链接