SentrySearch：用自然语言搜索视频——输入文字，返回剪辑

> OpenClaw Skill: clawhub.ai/ssrajadh/natural-language-video-search

> 语言: Python

> 后端: Gemini Embedding 2 / Qwen3-VL（本地）

> 研究时间: 2026-04-01

🎯 一句话版本

一个 CLI 工具——把视频切片后用 Gemini 或本地 Qwen3-VL 模型做多模态 embedding，存到 ChromaDB，然后你输入"红色卡车闯红灯"这样的自然语言，它就返回匹配的视频片段并自动剪辑出来。无需转录、无需字幕——直接视频像素到向量空间。

🔧 工作原理


视频文件 (.mp4)
  ↓ 切片 (30s chunks, 5s overlap)
  ↓ 预处理 (480p, 5fps, 95% 像素压缩)
  ↓ Embedding (Gemini API 或本地 Qwen3-VL)
  ↓ 存储 (ChromaDB 本地向量数据库)
  
搜索查询 "red truck at a stop sign"
  ↓ 文本 Embedding (同一向量空间)
  ↓ 余弦相似度匹配
  ↓ 自动 ffmpeg 剪辑
  ↓ 输出匹配视频片段

关键技术点：Gemini Embedding 2 和 Qwen3-VL 都能原生嵌入视频——不是"先转文字再搜"，而是直接把视频像素投射到和文本相同的向量空间。这才是亚秒级语义搜索的基础。

三步使用


# 1. 索引视频
sentrysearch index /path/to/footage

# 2. 搜索
sentrysearch search "car running a red light"
# → #1 [0.87] front_2024-01-15.mp4 @ 02:15-02:45
# → Saved clip: ./match_front_2024-01-15_02m15s-02m45s.mp4

# 3. 管理
sentrysearch stats    # 查看索引信息
sentrysearch reset    # 清空索引

💰 两种后端

维度	Gemini Embedding 2	Qwen3-VL 本地
成本	~$2.84/小时视频	免费
速度	取决于网络	2-8s/chunk (GPU)
隐私	视频上传 Google	完全本地
质量	更好	8B 接近，2B 稍弱
硬件要求	无	GPU + 16-24GB RAM/VRAM

本地模型硬件适配

硬件	自动选择模型	显存/内存
Apple Silicon 24GB+	qwen8b (float16)	✅
Apple Silicon 16GB	qwen2b (~6GB)	✅
NVIDIA 18GB+	qwen8b (bf16)	✅
NVIDIA 8-16GB	qwen8b 4-bit (~6-8GB)	✅
Intel Mac / 无 GPU	❌ 用 Gemini API	—

🚗 Tesla 行车记录仪特化


sentrysearch search "car cutting me off" --overlay

--overlay 在剪辑上叠加 HUD：

速度 + MPH
日期时间
城市和路名（OpenStreetMap 反向地理编码）
GPS 坐标

需要 Tesla firmware 2025.44.25+，提取 SEI 元数据。

这是一个很实际的场景——Tesla 车主的行车记录仪会积累 TB 级视频，手动翻找几乎不可能。

⚡ 性能优化

优化	效果
预处理下采样	19MB → 1MB（95% 像素减少）
低帧采样	每 chunk 最多 32 帧
MRL 维度截断	只保留前 768 维（Matryoshka）
4-bit 量化	18GB → 6-8GB VRAM
静帧跳过	跳过无变化的画面（停车/待机）

💡 与我们的关联

1. 多模态 embedding 的实际应用

我们之前研究了 Gemini Embedding 2——SentrySearch 就是它的杀手级应用。文字搜视频，不需要转录中间步骤。

2. OpenClaw Skill 版本

已经有 ClawHub skill，可以让 OpenClaw agent 直接搜索视频。比如："帮我从今天的行车记录里找到那个差点追尾的片段"。

3. Qwen3-VL 本地运行

在 ub2 的 4090 (24GB) 上可以跑 qwen8b 全精度——完全本地、完全隐私。如果我们要给 agent 加视频理解能力，这是一个现成方案。

4. 超越行车记录仪

虽然名字叫"Sentry"Search（来自 Tesla Sentry Mode），但支持任何 mp4 视频。安防摄像头、会议录像、直播回放——任何需要"从大量视频里找特定场景"的需求都适用。

5. 成本合理

$2.84/小时的 Gemini API 成本，对于 TB 级行车记录仪来说是可接受的。静帧跳过在 Sentry Mode（大量待机画面）下能省很多。

📊 评分

维度	评分（/10）
创新性	8.5 — 多模态 embedding 做视频语义搜索，不走转录中间路
实用性	9.0 — CLI 简洁、安装简单、Tesla 特化有实际场景
技术质量	8.5 — 性能优化到位、双后端、硬件自适应
完成度	8.0 — 功能完整但场景切分（chunk boundary）仍是硬限制
与我们的相关度	7.0 — 4090 可本地跑、有 OpenClaw skill、多模态方向
综合	8.0

报告由深度研究助手自动生成 | 2026-04-01

来源: GitHub / ClawHub

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）