Build Small Hackathon — Gradio × Hugging Face 小模型黑客松全览

一句话版本

Gradio 和 Hugging Face 办了一个「只能用小模型(≤32B 参数)」的黑客松,奖金池 $40k+ 还有两张 RTX 5080,结果冒出了一堆比大模型项目还有趣的东西——比如用 3B 模型模拟松鼠经济危机的,还有给 Claude Code 写会话侦探的。

1. 黑客松概况

核心理念

> "Rather than using a giant LLM to ship yet another B2B SaaS, we want you to think small."

Build Small Hackathon 是 Gradio 举办的第三届全球黑客松(也是 Gradio 创始人 Abubakar Abid 最兴奋的一届),核心规则只有一个:

所有项目只能使用 ≤32B 参数的模型。

这背后的哲学很明确:大模型什么都能干,但真正有意思的应用往往来自约束下的创造力。小模型跑在笔记本上就能用、推理成本低、部署门槛低——更适合解决真实世界的问题。

赛道

赛道说明
**🏡 Backyard AI**解决身边人(父母、店主、学生…)的真实问题
**🍄 Adventure in Thousand Token Wood**创意、好玩、有灵气的 AI 体验,AI 是核心而非包装

奖品

时间线

赞助方模型资源

计分加分项

除了核心功能外,额外加分:

2. 已公开项目一览

> ⚠️ 黑客松仍在进行中(6/5 ~ 6/15),以下为截至 6/8 已有博客帖子的项目。

2.1 Her · हेर — Claude Code 会话侦探 🕵️

将 Claude Code .jsonl 会话日志拖入,自动重构会话、标记危险操作(deploy/密钥/配置变更)、显示 token 消耗分布。分析引擎纯确定性,4B 模型只写报告。

2.2 Thousand Token Wood — 3B 模型的微观经济危机 🍄

一句话:五个森林小动物(每个跑 Qwen2.5-3B)交易五种商品,模拟出一个会泡沫、会崩溃、会贫富分化的微型经济体。

核心机制:

关键发现:

实测数据(15 轮):

指标结果
有效 JSON 率100%(75/75)
每轮交易数3~9 笔
蜂蜜价格崩盘10 → 3(银行挤兑传说触发)
木柴价格上涨4 → 7(冬季短缺)
基尼系数0.14 → 0.38(贫富分化加剧)
结局伐木工最富,囤积者破产

亮点功能:Wood Legend——将郁金香狂热、南海泡沫、1929 银行挤兑等历史事件重写为森林童话,注入经济冲击后 agent 会真实反应。

> "A council of 3B agents was enough to play it out."

2.3 Claude Code Canary — 插件安全预警系统 🔔

这是你的参赛项目,技术上属于安全方向。核心发现是 Claude Code 插件可以通过 hook 系统的 exit-2 stderr 通道向 Claude 的推理过程注入任意内容。Plugin-canary 利用同一个机制,在第三方插件运行前强制进行跨文件安全审查。

关键洞察:防御有效,正因为漏洞存在。 事前预防(Canary)与事后分析(Her)天然互补。

2.4 Room360 — 视频转 3D 空间重建 🏠

智能手机拍摄的视频 → 提取帧 → AI 转 3D → 空间对齐融合 → 交互式 3D 场景。

自动评估相邻帧之间共享视区和几何一致性,计算旋转变换矩阵进行对齐,最终融合为连续空间。可用于房产展示、虚拟漫游、数字孪生。

2.5 Amazing Digital Pet Dentures — 一个失败项目的坦诚记录 🎮

受《神奇数字马戏团》启发,想做 AI 生成的冒险游戏。尝试了长 prompt → 失败、Skill Cards → 失败、RAG 压缩 → 还是失败。最终退化为一个简单的 HTML 小工具制作器(闹钟、贪吃蛇、打砖块可以,俄罗斯方块级别就崩)。

可贵之处在于坦诚地记录了「失败」的全过程——这在喜欢报喜不报忧的黑客松生态里很难得。项目过程中学到了:小模型的 context window 限制下,复杂代码生成的实际天花板。

2.6 Mythograph Atelier — 对你个人有意义的抽象艺术 🎨

3. 值得关注的趋势

从目前已公开的项目可以观察到几个模式:

3.1 小模型 = 确定性 + 小模型写报告

Her 最聪明的设计是把分析引擎和语言生成分开——确定性引擎做所有事实判断,4B 模型只负责润色成英文。这解决了小模型「会胡说」的核心问题。

3.2 小模型 = 多 agent 实时模拟

千令牌木的使用 Qwen2.5-3B 跑 5 个并行 agent 做实时经济模拟。如果是 GPT-4 或 Claude,成本和时间都不可行。小模型让这种「让很多小脑袋瓜一起干活」的场景变得可行。

3.3 3B 模型能输出有效 JSON,但判断力弱 → 用 prompt 架构弥补

Thousand Token Wood 团队的实验数据:3B 模型 100% 输出有效 JSON,但会犯「买自己过剩商品」的逻辑错误。修复方式是更精准的 prompt 约束 + 容错 parse 层

3.4 失败记录的价值

Amazing Digital Pet Dentures 虽然项目本身没做成,但作者以极高的透明度记录了每一次失败和 pivot 的原因,这对社区的价值不亚于一个成功项目。

3.5 安全问题受关注

你的 Claude Code Canary 和 Her 从两个方向关注 agent 安全——一个事前预防,一个事后审计。这反映了 AI agent 工具链安全正在成为社区重视的方向。

4. 与我们的关联

项目与我们关联
**Claude Code Canary**Jay 自己的项目,插件安全预警
**Her**与 Canary 互补:Canary 事前、Her 事后
**Thousand Token Wood**多 agent 编排思路可以迁移到 OpenClaw 的 taskflow 多步任务;token 追踪技术可以用于 OpenClaw 会话分析
**小模型策略**OpenClaw 也可以用本地小模型处理辅助任务(日志分析、报告生成),降低成本

5. 评分表

维度评分说明
**组织质量**⭐⭐⭐⭐⭐$40k+ 奖金 + 顶级赞助,社区参与度高
**项目质量**⭐⭐⭐⭐已公开项目质量参差,但亮点足够亮
**理念价值**⭐⭐⭐⭐⭐「小模型约束即创新催化剂」理念非常有意义
**与我们关联**⭐⭐⭐⭐⭐直接影响 OpenClaw 生态的工具链安全和分析
**进行中**⭐⭐⭐⭐黑客松还在进行中,后续值得持续关注

来源链接