Browser Use 深度研究：YC 明星项目，让 AI Agent 像人一样上网

> 创始人: Gregor Zunic & Magnus Müller（ETH Zurich）

> 融资: $17M Seed（Felicis Ventures 领投，YC、Paul Graham 参投）

> License: MIT

> 研究时间: 2026-03-24

🎯 一句话版本

给 AI Agent 一个浏览器，让它像人一样上网——搜索、点击、填表、买东西、投简历。ETH 两个学生做的，YC W25，Paul Graham 亲自投了 $17M，还训了自己的浏览器专用模型（比 GPT-5/Claude 快 3-5 倍）。开源 + 云服务双模式。

📅 发展历程

时间	里程碑
2024 夏	Magnus 上一个创业项目（交通灯优化 GreenWAI）失败，在 ETH Student Project House (SPH) 重新开始
2024 秋	Magnus 联系 Gregor Zunic（刚离开前一个创业项目），两人在 SPH 碰面
2024 秋	核心灵感："为什么我不能告诉电脑我想做什么，让它自己去点？"——5 天做出原型
2024-11	推上 Hacker News，意外爆火。"人们被 AI 自动点击浏览器迷住了"
2024-12-15	发布 WebVoyager 基准技术报告，89.1% 成功率（SOTA）
2025-01	申请 YC。Jared 面试后三周没回复，Magnus 每周推新更新催。在阿曼沙漠找 WiFi 做了二面
2025-03-22	宣布 [$17M Seed 融资](https://browser-use.com/posts/seed-round)（Felicis + YC + Paul Graham）。Demo Day 前就有 $4M uncapped SAFEs，140 场投资人会议
2025-08-20	[抛弃 Playwright，切换到原生 CDP](https://browser-use.com/posts/playwright-to-cdp)（Chrome DevTools Protocol）
2025-09-30	推出 Stealth Infrastructure（反反爬虫）
2025-10	发布 LLM Gateway，延迟降低 6 倍，Agent 可达 20 步/分钟
2025-11-12	一周年：已成为最大的开源浏览器 Agent 框架
2026-01	发布 [The Bitter Lesson of Agent Frameworks](https://browser-use.com/posts/bitter-lesson-agent-frameworks)："所有价值在 RL 过的模型里，不在你的 10,000 行抽象里"
2026-02	发布开源 benchmark（100 个真实任务）+ 模型对比报告
2026-03	CLI 2.0：基于 CDP，~50ms 延迟，后台 daemon 常驻。79k+ GitHub Stars

关键转折点

从 Playwright 到 CDP（2025-08）是架构级转折。Playwright 是浏览器自动化的行业标准，但 Browser Use 认为它太慢、太抽象。直接用 Chrome DevTools Protocol 后：

命令延迟从 ~200ms 降到 ~50ms
支持连接已运行的 Chrome（带登录状态/Cookie/扩展）
支持 FUSE 式多会话管理

"The Bitter Lesson"（2026-01）是技术路线宣言：别堆框架代码，训专用模型才是正道。所以他们训了 ChatBrowserUse 和开源的 bu-30b-a3b-preview。

🧠 它是什么？

Browser Use 是一个 AI Agent 浏览器自动化框架。不是 Selenium/Playwright 那种写脚本的自动化，而是：

> 你告诉 Agent "帮我在 Amazon 上买最便宜的有机咖啡"，它自己打开浏览器、搜索、比价、加购物车。

核心区别：

	传统自动化 (Selenium/Playwright)	Browser Use
驱动方式	人写脚本	LLM 决策
适应性	页面变了就挂	自动适应新布局
复杂任务	需要大量 if/else	自然语言描述即可
CAPTCHA	基本无解	Cloud 版自动处理

🏗️ 架构

三种使用模式


┌──────────────────────────────────────────────────┐
│                    Browser Use                     │
├──────────────┬────────────────┬───────────────────┤
│  开源库       │  Cloud API      │  CLI              │
│  (自托管)     │  (推荐)         │  (交互式)         │
│              │                │                    │
│  自选 LLM    │  ChatBrowserUse │  browser-use open  │
│  本地浏览器   │  隐身浏览器     │  browser-use click │
│  完全控制     │  proxy+CAPTCHA  │  browser-use type  │
└──────────────┴────────────────┴───────────────────┘

极简代码


from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    agent = Agent(
        task="帮我找到 browser-use 的 GitHub Star 数",
        llm=ChatBrowserUse(),
        browser=Browser(),
    )
    await agent.run()

asyncio.run(main())

6 行代码，Agent 就能上网干活了。

🤖 自有模型：ChatBrowserUse

Browser Use 不只是框架，还训了专门的浏览器自动化模型：

特性	说明
速度	比通用模型快 3-5 倍
准确率	浏览器任务 SOTA
定价	$0.20/1M input, $2.00/1M output
缓存	$0.02/1M cached input

还有开源预览版：bu-30b-a3b-preview（基于 Qwen3-VL-30B-A3B 微调），可以用 vLLM 本地部署。

支持的 LLM


# 自有模型（推荐）
ChatBrowserUse()

# 或者用其他模型
ChatGoogle(model='gemini-3-flash-preview')
ChatAnthropic(model='claude-sonnet-4-6')

# 或者本地 Ollama

🔧 CLI 2.0：命令行直接操控浏览器

最新版 CLI 2.0 基于 CDP（不再用 Playwright），后台 daemon 常驻，~50ms 命令延迟：


browser-use open https://example.com   # 打开 URL
browser-use state                       # 查看可点击元素（返回索引列表）
browser-use click 5                     # 按索引点击
browser-use input 3 "[email protected]"   # 填表
browser-use type "Hello World"          # 输入文字
browser-use screenshot page.png         # 截图
browser-use upload 4 ./resume.pdf       # 上传文件
browser-use select 3 "United States"    # 下拉选择
browser-use eval "document.title"       # 执行 JS
browser-use close                       # 关闭

浏览器模式

模式	命令	说明
Headless	`browser-use open `	默认，无界面
Headed	`browser-use --headed open `	可见窗口（调试用）
Real Chrome	`browser-use --profile "Default" open `	复用你的 Chrome 登录/Cookie/扩展
Connect	`browser-use --connect open `	自动发现并连接运行中的 Chrome
Cloud	`browser-use cloud connect`	隐身云浏览器

多会话 + 数据提取


browser-use -s work open https://work.example.com    # 命名会话
browser-use -s personal open https://gmail.com
browser-use sessions                                   # 列出所有
browser-use get html --selector "table"                # 提取 HTML
browser-use get text 5                                 # 元素文本
browser-use python "items = browser.html"              # 持久 Python 会话

☁️ Cloud vs 开源

	开源（自托管）	Cloud（推荐）
适用	需要自定义工具、深度集成	快速启动、大规模部署
浏览器	本地 Chromium	隐身浏览器 + proxy rotation
CAPTCHA	❌ 基本无解	✅ 自动解决
集成	手动	1000+ 集成（Gmail, Slack, Notion...）
记忆	无	持久文件系统和记忆
扩展性	受限于本地资源	自动扩展

📊 Benchmark

Browser Use 有自己的开源 benchmark：browser-use/benchmark

100 个真实浏览器任务
Cloud Agent 在复杂任务上表现显著优于开源版

🔌 自定义工具


from browser_use import Tools

tools = Tools()

@tools.action(description='在数据库中查找用户信息')
def lookup_user(email: str) -> str:
    return f"用户: {email}, 状态: 活跃"

agent = Agent(
    task="查找 [email protected] 的信息",
    llm=llm,
    browser=browser,
    tools=tools,
)

Agent 可以同时操控浏览器 + 调用自定义工具。

👥 团队 & 融资

创始人	Gregor Zunic & Magnus Müller
背景	ETH Zurich Student Project House
加速器	Y Combinator W25
融资	$17M Seed
领投	Felicis Ventures
参投	A Capital, Nexus Ventures, YC, Paul Graham
总部	Zurich + San Francisco

从 ETH 学生项目到 $17M 融资，launch 当天 GitHub trending #1。

🆚 竞品对比

	Browser Use	OpenAI Operator	Skyvern	Stagehand
开源	✅ MIT	❌	✅	✅
自有模型	✅ ChatBrowserUse	✅ GPT-based	❌	❌
云服务	✅	✅	✅	❌
隐身浏览器	✅ Cloud	✅	✅	❌
自定义工具	✅	❌	❌	❌
CLI	✅	❌	❌	❌
融资	$17M	N/A	$40M ($300M 估值)	—

Browser Use 的优势：开源 + 自有模型 + 云服务 + CLI + 自定义工具，全栈最完整。

🎯 应用场景

已验证的场景（官方示例 + 客户案例）

场景	说明	来源
求职自动化	自动浏览招聘网站、填写申请表、上传简历	[示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/apply_to_job.py)
电商购物	自动搜索商品、比价、加购物车	[示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/buy_groceries.py)
硬件选配	PCPartPicker 自动组装方案	[示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/pcpartpicker.py)
Agent 友好度评分	New Generation 用 BU 给电商网站打"Agent 可操作性"分	[客户案例](https://browser-use.com/posts/new-generation)
产品 Onboarding	Frigade 用 BU 构建 AI 引导式产品新手流程	[客户案例](https://browser-use.com/posts/frigade)
Web 搜索引擎	Parallel AI 用 BU 构建下一代 Web 搜索	[客户案例](https://browser-use.com/posts/parallel)
表单填写	自动填写复杂表单、处理多步骤流程	CLI FAQ
安全测试	渗透测试/QA 测试	CLI FAQ

🧪 能做前端自动测试吗？

可以，而且是 Browser Use 非常适合的场景。 对比传统方案：

	传统 E2E 测试 (Cypress/Playwright)	Browser Use
测试编写	手写选择器 + 断言	自然语言描述
维护成本	页面改了选择器就挂	LLM 自适应新布局
覆盖范围	只测预设路径	可探索式测试
速度	毫秒级	秒级（每步需要 LLM 推理）
确定性	✅ 100% 确定	❌ LLM 有概率性
CI/CD	原生集成	需要额外封装

适合的测试类型：

1. 探索式测试 / Smoke Test：

`python

agent = Agent(

task="以新用户身份注册，填写所有必填字段，验证注册成功后能看到 Dashboard",

llm=ChatBrowserUse(),

browser=Browser(),

)

不需要写一行选择器，页面改版也不用维护。

2. 跨浏览器视觉回归：

`bash

browser-use open https://staging.myapp.com

browser-use screenshot before.png

# 部署新版本后

browser-use screenshot after.png

3. 用户流程端到端验证：

Agent 自动走完"注册→登录→创建项目→邀请成员→删除项目"全流程。

4. QA + 渗透测试（CLI FAQ 明确提到这是热门场景）

不适合的测试类型：

单元测试 / 组件测试：太重了，用 Jest/Vitest
性能基准测试：LLM 推理延迟不可控
需要 100% 确定性的回归测试：LLM 有小概率行为不一致

结论：Browser Use 不是替代 Cypress/Playwright，而是补充——传统工具做确定性回归，Browser Use 做探索式 / 烟雾 / 可用性测试。最大优势是零维护——页面改了不用改测试。

💡 与我们的关联

1. OpenClaw 已有浏览器能力

OpenClaw 内置 browser tool（Playwright 驱动），可以 snapshot/screenshot/act。Browser Use 解决的是不同层面的问题：

	OpenClaw browser tool	Browser Use
定位	辅助工具	独立 Agent 框架
决策	Claude/GPT 通用模型	浏览器专用模型
隐身	❌	✅ Cloud
并行	受限	✅ 云端自动扩展

2. 可能的集成方式

把 Browser Use 作为 OpenClaw 的外部浏览器 Agent
复杂的网页操作（填表、购物、申请）交给 Browser Use
简单的网页抓取继续用 OpenClaw 内置 browser/web_fetch

3. 自有模型的启示

Browser Use 训了浏览器专用模型（bu-30b-a3b-preview），比通用模型快 3-5 倍。这说明：

> 垂直任务 + 专用模型 > 通用大模型

这和我们在 ub2 上测试 Qwopus（Opus 蒸馏到 Qwen3.5-27B）的思路一致。

4. 开源预览模型可以本地跑

bu-30b-a3b-preview 基于 Qwen3-VL-30B-A3B 微调，ub2 的 RTX 4090 跑得动（MoE 30B/3B 激活）。可以作为本地浏览器 Agent 方案。

5. 短期不需要

我们的深度研究场景主要是 web_fetch + web_search，不需要复杂的浏览器交互。但如果未来需要自动化网页操作（比如监控价格、自动发帖、填表），Browser Use 是首选。

📊 评分

维度	评分（/10）
技术方案	9.0 — 开源框架 + 自有专用模型 + 云服务，全栈完整
社区热度	9.5 — GitHub trending #1，YC W25，Paul Graham 投资
易用性	9.0 — 6 行代码启动，CLI 交互式，模板生成
商业模式	8.5 — 开源引流 + 云服务变现，经典 open-core
与我们的适配度	6.5 — 当前不需要，但未来浏览器自动化的首选方案
综合	8.5

报告由深度研究助手自动生成 | 2026-03-24

来源: GitHub

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

评分

维度	分数	说明
创意	?/10
技术深度	?/10
实用性	?/10
影响力	?/10
数据支撑	?/10
与我们的相关性	?/10
综合	?/10	需要后续评估

> 一句话总结：（报告的核心价值与我们的关联）

创始人	Gregor Zunic & Magnus Müller
背景	ETH Zurich Student Project House
加速器	Y Combinator W25
融资	$17M Seed
领投	Felicis Ventures
参投	A Capital, Nexus Ventures, YC, Paul Graham
总部	Zurich + San Francisco