SentrySearch:用自然语言搜索视频——输入文字,返回剪辑

> 来源: github.com/ssrajadh/sentrysearch

> OpenClaw Skill: clawhub.ai/ssrajadh/natural-language-video-search

> 作者: ssrajadh

> 语言: Python

> 后端: Gemini Embedding 2 / Qwen3-VL(本地)

> 研究时间: 2026-04-01

🎯 一句话版本

一个 CLI 工具——把视频切片后用 Gemini 或本地 Qwen3-VL 模型做多模态 embedding,存到 ChromaDB,然后你输入"红色卡车闯红灯"这样的自然语言,它就返回匹配的视频片段并自动剪辑出来。无需转录、无需字幕——直接视频像素到向量空间。

🔧 工作原理


视频文件 (.mp4)
  ↓ 切片 (30s chunks, 5s overlap)
  ↓ 预处理 (480p, 5fps, 95% 像素压缩)
  ↓ Embedding (Gemini API 或本地 Qwen3-VL)
  ↓ 存储 (ChromaDB 本地向量数据库)
  
搜索查询 "red truck at a stop sign"
  ↓ 文本 Embedding (同一向量空间)
  ↓ 余弦相似度匹配
  ↓ 自动 ffmpeg 剪辑
  ↓ 输出匹配视频片段

关键技术点:Gemini Embedding 2 和 Qwen3-VL 都能原生嵌入视频——不是"先转文字再搜",而是直接把视频像素投射到和文本相同的向量空间。这才是亚秒级语义搜索的基础。

三步使用


# 1. 索引视频
sentrysearch index /path/to/footage

# 2. 搜索
sentrysearch search "car running a red light"
# → #1 [0.87] front_2024-01-15.mp4 @ 02:15-02:45
# → Saved clip: ./match_front_2024-01-15_02m15s-02m45s.mp4

# 3. 管理
sentrysearch stats    # 查看索引信息
sentrysearch reset    # 清空索引

💰 两种后端

维度Gemini Embedding 2Qwen3-VL 本地
成本~$2.84/小时视频免费
速度取决于网络2-8s/chunk (GPU)
隐私视频上传 Google完全本地
质量更好8B 接近,2B 稍弱
硬件要求GPU + 16-24GB RAM/VRAM

本地模型硬件适配

硬件自动选择模型显存/内存
Apple Silicon 24GB+qwen8b (float16)
Apple Silicon 16GBqwen2b (~6GB)
NVIDIA 18GB+qwen8b (bf16)
NVIDIA 8-16GBqwen8b 4-bit (~6-8GB)
Intel Mac / 无 GPU❌ 用 Gemini API

🚗 Tesla 行车记录仪特化


sentrysearch search "car cutting me off" --overlay

--overlay 在剪辑上叠加 HUD:

需要 Tesla firmware 2025.44.25+,提取 SEI 元数据。

这是一个很实际的场景——Tesla 车主的行车记录仪会积累 TB 级视频,手动翻找几乎不可能。

⚡ 性能优化

优化效果
预处理下采样19MB → 1MB(95% 像素减少)
低帧采样每 chunk 最多 32 帧
MRL 维度截断只保留前 768 维(Matryoshka)
4-bit 量化18GB → 6-8GB VRAM
静帧跳过跳过无变化的画面(停车/待机)

💡 与我们的关联

1. 多模态 embedding 的实际应用

我们之前研究了 Gemini Embedding 2——SentrySearch 就是它的杀手级应用。文字搜视频,不需要转录中间步骤。

2. OpenClaw Skill 版本

已经有 ClawHub skill,可以让 OpenClaw agent 直接搜索视频。比如:"帮我从今天的行车记录里找到那个差点追尾的片段"。

3. Qwen3-VL 本地运行

在 ub2 的 4090 (24GB) 上可以跑 qwen8b 全精度——完全本地、完全隐私。如果我们要给 agent 加视频理解能力,这是一个现成方案。

4. 超越行车记录仪

虽然名字叫"Sentry"Search(来自 Tesla Sentry Mode),但支持任何 mp4 视频。安防摄像头、会议录像、直播回放——任何需要"从大量视频里找特定场景"的需求都适用。

5. 成本合理

$2.84/小时的 Gemini API 成本,对于 TB 级行车记录仪来说是可接受的。静帧跳过在 Sentry Mode(大量待机画面)下能省很多。

📊 评分

维度评分(/10)
创新性8.5 — 多模态 embedding 做视频语义搜索,不走转录中间路
实用性9.0 — CLI 简洁、安装简单、Tesla 特化有实际场景
技术质量8.5 — 性能优化到位、双后端、硬件自适应
完成度8.0 — 功能完整但场景切分(chunk boundary)仍是硬限制
与我们的相关度7.0 — 4090 可本地跑、有 OpenClaw skill、多模态方向
**综合****8.0**

报告由深度研究助手自动生成 | 2026-04-01

来源: GitHub / ClawHub