Browser Use 深度研究:YC 明星项目,让 AI Agent 像人一样上网

> GitHub: browser-use/browser-use

> 官网: browser-use.com

> 云服务: cloud.browser-use.com

> 创始人: Gregor Zunic & Magnus Müller(ETH Zurich)

> 融资: $17M Seed(Felicis Ventures 领投,YC、Paul Graham 参投)

> License: MIT

> 研究时间: 2026-03-24

🎯 一句话版本

给 AI Agent 一个浏览器,让它像人一样上网——搜索、点击、填表、买东西、投简历。ETH 两个学生做的,YC W25,Paul Graham 亲自投了 $17M,还训了自己的浏览器专用模型(比 GPT-5/Claude 快 3-5 倍)。开源 + 云服务双模式。

📅 发展历程

时间里程碑
**2024 夏**Magnus 上一个创业项目(交通灯优化 GreenWAI)失败,在 ETH Student Project House (SPH) 重新开始
**2024 秋**Magnus 联系 Gregor Zunic(刚离开前一个创业项目),两人在 SPH 碰面
**2024 秋**核心灵感:"为什么我不能告诉电脑我想做什么,让它自己去点?"——5 天做出原型
**2024-11**推上 Hacker News,意外爆火。"人们被 AI 自动点击浏览器迷住了"
**2024-12-15**发布 WebVoyager 基准技术报告,89.1% 成功率(SOTA)
**2025-01**申请 YC。Jared 面试后三周没回复,Magnus 每周推新更新催。在阿曼沙漠找 WiFi 做了二面
**2025-03-22**宣布 [$17M Seed 融资](https://browser-use.com/posts/seed-round)(Felicis + YC + Paul Graham)。Demo Day 前就有 $4M uncapped SAFEs,140 场投资人会议
**2025-08-20**[抛弃 Playwright,切换到原生 CDP](https://browser-use.com/posts/playwright-to-cdp)(Chrome DevTools Protocol)
**2025-09-30**推出 Stealth Infrastructure(反反爬虫)
**2025-10**发布 LLM Gateway,延迟降低 6 倍,Agent 可达 20 步/分钟
**2025-11-12**一周年:已成为最大的开源浏览器 Agent 框架
**2026-01**发布 [The Bitter Lesson of Agent Frameworks](https://browser-use.com/posts/bitter-lesson-agent-frameworks):"所有价值在 RL 过的模型里,不在你的 10,000 行抽象里"
**2026-02**发布开源 benchmark(100 个真实任务)+ 模型对比报告
**2026-03****CLI 2.0**:基于 CDP,~50ms 延迟,后台 daemon 常驻。79k+ GitHub Stars

关键转折点

从 Playwright 到 CDP(2025-08)是架构级转折。Playwright 是浏览器自动化的行业标准,但 Browser Use 认为它太慢、太抽象。直接用 Chrome DevTools Protocol 后:

"The Bitter Lesson"(2026-01)是技术路线宣言:别堆框架代码,训专用模型才是正道。所以他们训了 ChatBrowserUse 和开源的 bu-30b-a3b-preview。

🧠 它是什么?

Browser Use 是一个 AI Agent 浏览器自动化框架。不是 Selenium/Playwright 那种写脚本的自动化,而是:

> 你告诉 Agent "帮我在 Amazon 上买最便宜的有机咖啡",它自己打开浏览器、搜索、比价、加购物车。

核心区别:

传统自动化 (Selenium/Playwright)Browser Use
驱动方式人写脚本**LLM 决策**
适应性页面变了就挂**自动适应新布局**
复杂任务需要大量 if/else**自然语言描述即可**
CAPTCHA基本无解**Cloud 版自动处理**

🏗️ 架构

三种使用模式


┌──────────────────────────────────────────────────┐
│                    Browser Use                     │
├──────────────┬────────────────┬───────────────────┤
│  开源库       │  Cloud API      │  CLI              │
│  (自托管)     │  (推荐)         │  (交互式)         │
│              │                │                    │
│  自选 LLM    │  ChatBrowserUse │  browser-use open  │
│  本地浏览器   │  隐身浏览器     │  browser-use click │
│  完全控制     │  proxy+CAPTCHA  │  browser-use type  │
└──────────────┴────────────────┴───────────────────┘

极简代码


from browser_use import Agent, Browser, ChatBrowserUse
import asyncio

async def main():
    agent = Agent(
        task="帮我找到 browser-use 的 GitHub Star 数",
        llm=ChatBrowserUse(),
        browser=Browser(),
    )
    await agent.run()

asyncio.run(main())

6 行代码,Agent 就能上网干活了。

🤖 自有模型:ChatBrowserUse

Browser Use 不只是框架,还训了专门的浏览器自动化模型

特性说明
速度比通用模型快 **3-5 倍**
准确率浏览器任务 **SOTA**
定价$0.20/1M input, $2.00/1M output
缓存$0.02/1M cached input

还有开源预览版:bu-30b-a3b-preview(基于 Qwen3-VL-30B-A3B 微调),可以用 vLLM 本地部署。

支持的 LLM


# 自有模型(推荐)
ChatBrowserUse()

# 或者用其他模型
ChatGoogle(model='gemini-3-flash-preview')
ChatAnthropic(model='claude-sonnet-4-6')

# 或者本地 Ollama

🔧 CLI 2.0:命令行直接操控浏览器

最新版 CLI 2.0 基于 CDP(不再用 Playwright),后台 daemon 常驻,~50ms 命令延迟:


browser-use open https://example.com   # 打开 URL
browser-use state                       # 查看可点击元素(返回索引列表)
browser-use click 5                     # 按索引点击
browser-use input 3 "[email protected]"   # 填表
browser-use type "Hello World"          # 输入文字
browser-use screenshot page.png         # 截图
browser-use upload 4 ./resume.pdf       # 上传文件
browser-use select 3 "United States"    # 下拉选择
browser-use eval "document.title"       # 执行 JS
browser-use close                       # 关闭

浏览器模式

模式命令说明
Headless`browser-use open `默认,无界面
Headed`browser-use --headed open `可见窗口(调试用)
**Real Chrome**`browser-use --profile "Default" open `**复用你的 Chrome 登录/Cookie/扩展**
Connect`browser-use --connect open `自动发现并连接运行中的 Chrome
Cloud`browser-use cloud connect`隐身云浏览器

多会话 + 数据提取


browser-use -s work open https://work.example.com    # 命名会话
browser-use -s personal open https://gmail.com
browser-use sessions                                   # 列出所有
browser-use get html --selector "table"                # 提取 HTML
browser-use get text 5                                 # 元素文本
browser-use python "items = browser.html"              # 持久 Python 会话

☁️ Cloud vs 开源

开源(自托管)Cloud(推荐)
适用需要自定义工具、深度集成快速启动、大规模部署
浏览器本地 Chromium**隐身浏览器 + proxy rotation**
CAPTCHA❌ 基本无解✅ 自动解决
集成手动**1000+ 集成**(Gmail, Slack, Notion...)
记忆**持久文件系统和记忆**
扩展性受限于本地资源**自动扩展**

📊 Benchmark

Browser Use 有自己的开源 benchmark:browser-use/benchmark

🔌 自定义工具


from browser_use import Tools

tools = Tools()

@tools.action(description='在数据库中查找用户信息')
def lookup_user(email: str) -> str:
    return f"用户: {email}, 状态: 活跃"

agent = Agent(
    task="查找 [email protected] 的信息",
    llm=llm,
    browser=browser,
    tools=tools,
)

Agent 可以同时操控浏览器 + 调用自定义工具。

👥 团队 & 融资

**创始人**Gregor Zunic & Magnus Müller
**背景**ETH Zurich Student Project House
**加速器**Y Combinator W25
**融资**$17M Seed
**领投**Felicis Ventures
**参投**A Capital, Nexus Ventures, YC, **Paul Graham**
**总部**Zurich + San Francisco

从 ETH 学生项目到 $17M 融资,launch 当天 GitHub trending #1。

🆚 竞品对比

Browser UseOpenAI OperatorSkyvernStagehand
开源✅ MIT
自有模型✅ ChatBrowserUse✅ GPT-based
云服务
隐身浏览器✅ Cloud
自定义工具
CLI
融资$17MN/A**$40M** ($300M 估值)

Browser Use 的优势:开源 + 自有模型 + 云服务 + CLI + 自定义工具,全栈最完整。

🎯 应用场景

已验证的场景(官方示例 + 客户案例)

场景说明来源
**求职自动化**自动浏览招聘网站、填写申请表、上传简历[示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/apply_to_job.py)
**电商购物**自动搜索商品、比价、加购物车[示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/buy_groceries.py)
**硬件选配**PCPartPicker 自动组装方案[示例代码](https://github.com/browser-use/browser-use/blob/main/examples/use-cases/pcpartpicker.py)
**Agent 友好度评分**New Generation 用 BU 给电商网站打"Agent 可操作性"分[客户案例](https://browser-use.com/posts/new-generation)
**产品 Onboarding**Frigade 用 BU 构建 AI 引导式产品新手流程[客户案例](https://browser-use.com/posts/frigade)
**Web 搜索引擎**Parallel AI 用 BU 构建下一代 Web 搜索[客户案例](https://browser-use.com/posts/parallel)
**表单填写**自动填写复杂表单、处理多步骤流程CLI FAQ
**安全测试**渗透测试/QA 测试CLI FAQ

🧪 能做前端自动测试吗?

可以,而且是 Browser Use 非常适合的场景。 对比传统方案:

传统 E2E 测试 (Cypress/Playwright)Browser Use
测试编写手写选择器 + 断言**自然语言描述**
维护成本页面改了选择器就挂**LLM 自适应新布局**
覆盖范围只测预设路径**可探索式测试**
速度毫秒级秒级(每步需要 LLM 推理)
确定性✅ 100% 确定❌ LLM 有概率性
CI/CD原生集成需要额外封装

适合的测试类型

1. 探索式测试 / Smoke Test

`python

agent = Agent(

task="以新用户身份注册,填写所有必填字段,验证注册成功后能看到 Dashboard",

llm=ChatBrowserUse(),

browser=Browser(),

)

`

不需要写一行选择器,页面改版也不用维护。

2. 跨浏览器视觉回归

`bash

browser-use open https://staging.myapp.com

browser-use screenshot before.png

# 部署新版本后

browser-use screenshot after.png

`

3. 用户流程端到端验证

Agent 自动走完"注册→登录→创建项目→邀请成员→删除项目"全流程。

4. QA + 渗透测试(CLI FAQ 明确提到这是热门场景)

不适合的测试类型

结论:Browser Use 不是替代 Cypress/Playwright,而是补充——传统工具做确定性回归,Browser Use 做探索式 / 烟雾 / 可用性测试。最大优势是零维护——页面改了不用改测试。

💡 与我们的关联

1. OpenClaw 已有浏览器能力

OpenClaw 内置 browser tool(Playwright 驱动),可以 snapshot/screenshot/act。Browser Use 解决的是不同层面的问题

OpenClaw browser toolBrowser Use
定位辅助工具**独立 Agent 框架**
决策Claude/GPT 通用模型**浏览器专用模型**
隐身✅ Cloud
并行受限✅ 云端自动扩展

2. 可能的集成方式

3. 自有模型的启示

Browser Use 训了浏览器专用模型(bu-30b-a3b-preview),比通用模型快 3-5 倍。这说明:

> 垂直任务 + 专用模型 > 通用大模型

这和我们在 ub2 上测试 Qwopus(Opus 蒸馏到 Qwen3.5-27B)的思路一致。

4. 开源预览模型可以本地跑

bu-30b-a3b-preview 基于 Qwen3-VL-30B-A3B 微调,ub2 的 RTX 4090 跑得动(MoE 30B/3B 激活)。可以作为本地浏览器 Agent 方案。

5. 短期不需要

我们的深度研究场景主要是 web_fetch + web_search,不需要复杂的浏览器交互。但如果未来需要自动化网页操作(比如监控价格、自动发帖、填表),Browser Use 是首选。

📊 评分

维度评分(/10)
技术方案9.0 — 开源框架 + 自有专用模型 + 云服务,全栈完整
社区热度9.5 — GitHub trending #1,YC W25,Paul Graham 投资
易用性9.0 — 6 行代码启动,CLI 交互式,模板生成
商业模式8.5 — 开源引流 + 云服务变现,经典 open-core
与我们的适配度6.5 — 当前不需要,但未来浏览器自动化的首选方案
**综合****8.5**

报告由深度研究助手自动生成 | 2026-03-24

来源: GitHub