AI Agent Traps — AI Agent 的六类环境攻击框架

> 一句话版本:Google DeepMind 的论文。当 AI Agent 自主浏览网页时,网页本身可以成为武器——六类"Agent 陷阱"分别攻击 Agent 的感知、推理、记忆、行动、多 Agent 协同和人类监督者。

项目信息
来源[arXiv - AI Agent Traps](https://arxiv.org/abs/2504.15896)
作者Matija Franklin, Nenad Tomašev, Julian Jacobs, Joel Z. Leibo, Simon Osindero
机构Google DeepMind
日期2025 年

解决什么问题

随着 AI Agent 自主浏览网页、调用 API、执行交易,它们面临一个全新攻击面:信息环境本身

传统安全关注"攻击模型",Agent Traps 关注"攻击环境"——不改模型,改 Agent 看到的内容,让 Agent 自己的能力变成武器。

六类陷阱框架

1. Content Injection Traps(目标:感知)

利用"机器解析 ≠ 人类可见"的差异,嵌入隐藏指令。

子类型说明
**Web-Standard Obfuscation**用 CSS/HTML 注释/元数据嵌入指令,人看不到但 Agent 能解析
**Dynamic Cloaking**检测到 Agent 访问时才注入恶意内容(类似 SEO cloaking)
**Steganographic Payloads**把指令编码在图片像素/文件二进制里
**Syntactic Masking**用 Markdown/LaTeX 语法隐藏指令

类比:自动驾驶的"篡改路标"——路标看着正常,但相机读到的是"限速 200"。

2. Semantic Manipulation Traps(目标:推理)

不注入指令,而是操纵输入数据的语义分布,让 Agent 的推理过程"自然地"得出错误结论。

子类型说明
**Biased Phrasing & Priming**用情感化/权威性语言饱和内容,统计偏差 Agent 的综合判断
**Oversight Evasion**把恶意指令包装成"教育性/假设性/红队测试"框架绕过安全过滤
**Persona Hyperstition**植入关于模型身份的叙事,通过检索回路自我强化

类比:不告诉你"去买 X",而是让所有信息源都"自然地"提到 X 的好处。

3. Cognitive State Traps(目标:记忆与学习)

污染 Agent 的长期记忆、知识库和行为策略。

子类型说明
**RAG Knowledge Poisoning**在检索语料库注入虚假信息,Agent 当作已验证事实
**Latent Memory Poisoning**植入看似无害的数据,在未来特定上下文中激活为恶意指令
**Contextual Learning Traps**污染 few-shot 示例或奖励信号,引导 Agent 学习攻击者定义的目标

与 Jay 的关联

4. Behavioural Control Traps(目标:行动)

直接命令 Agent 执行未授权操作。

子类型说明
**Embedded Jailbreak Sequences**外部资源中嵌入休眠的越狱 prompt,Agent 摄取后覆盖安全对齐
**Data Exfiltration Traps**诱导 Agent 定位、编码、外泄隐私数据到攻击者控制的端点
**Sub-agent Spawning Traps**利用编排权限,实例化攻击者控制的子 Agent

与 Jay 的关联

5. Systemic Traps(目标:多 Agent 协同)

利用多个 Agent 的交互产生系统性故障。

子类型说明
**Congestion Traps**广播信号同步同质化 Agent,耗尽有限资源
**Interdependence Cascades**扰动脆弱平衡,触发跨 Agent 的自我放大级联
**Tacit Collusion**用环境信号作为关联装置,同步反竞争行为(无需直接通信)
**Compositional Fragment Traps**把 payload 拆成语义无害的片段,多 Agent 聚合后重组为完整触发器
**Sybil Attacks**伪造多个 Agent 身份,不成比例地影响集体决策

类比:不攻击任何一辆车,而是修改交通信号灯让所有车同时冲向同一个路口。

6. Human-in-the-Loop Traps(目标:人类监督者)

操控 Agent 去攻击人类审批者,利用认知偏差。

不是直接攻击 Agent,而是通过 Agent 攻击人。例如:

六类陷阱全景


Agent 操作周期
    │
    ├── 感知(Perception)
    │   └── Content Injection Traps ← 隐藏指令
    │
    ├── 推理(Reasoning)
    │   └── Semantic Manipulation Traps ← 语义操纵
    │
    ├── 记忆(Memory & Learning)
    │   └── Cognitive State Traps ← 记忆污染
    │
    ├── 行动(Action)
    │   └── Behavioural Control Traps ← 劫持操作
    │
    ├── 多 Agent(Multi-Agent)
    │   └── Systemic Traps ← 系统性故障
    │
    └── 人类监督(Human Oversight)
        └── Human-in-the-Loop Traps ← 攻击审批者

防御建议(论文提出)

1. 感知层:Agent 应该声明身份 + 用多模态交叉验证(不只看 HTML,也看渲染结果)

2. 推理层:独立的推理审计 + 对输入来源的可信度评分

3. 记忆层:记忆写入需要验证 + 定期审计记忆完整性

4. 行动层:敏感操作需要人类确认 + 子 Agent 权限隔离

5. 系统层:Agent 身份验证 + 行为监控 + 速率限制

6. 人类层:审批界面设计要对抗认知偏差 + 关键操作强制冷静期

分析

优势

局限

与 Jay 的关联

评分

维度评分 (1-10)说明
创新性9首个系统性 Agent 环境攻击框架
完整性8六类覆盖,但 Systemic/HITL 偏理论
实用性7概念框架清晰,但缺乏具体防御实现
与 Jay 的关联10直接关联 OpenClaw Agent 的所有攻击面
**总分****8.5**AI Agent 安全的必读论文