inference.sh:AI Agent 的生产级运行时
> 来源: https://inference.sh/
> 日期: 2026-04-03
> 类型: AI Agent 基础设施 / PaaS
> SDK: Python (inferencesh) + JS/TS (@inferencesh/sdk)
> GitHub: https://github.com/inference-sh/skills (MIT)
🎯 一句话版本
inference.sh 是一个 AI Agent 的"生产级运行时"——你写 Agent 逻辑,它帮你搞定状态持久化、失败恢复、OAuth 管理、可观测性和按次计费。从 demo 到 production,省掉几个月的基础设施工作。
解决什么问题?
写一个 demo Agent 只要一下午。把它部署到 production 要几个月。
为什么?因为你得自己建:
| 你得自己建的东西 | 需要的工时 |
|---|---|
| 状态持久化(用户关浏览器不丢失上下文) | 1-2 周 |
| 重试和恢复逻辑(API 超时/限流/认证过期) | 1 周 |
| 可观测性(凌晨 3 点出事了能追溯) | 2 周 |
| OAuth 管理(token 存储、刷新、隔离) | 1-2 周 |
| 按用户计费 | 1 周 |
inference.sh 把这些全做了,你只管写 Agent 逻辑。
核心能力
1. Durable Execution(持久执行)
Agent 每一步都做 checkpoint。连接断了、进程崩了、工具超时了——从上一个 checkpoint 恢复,不用从头来。
这对长时间运行的 Agent 至关重要:传统 web 框架假设请求在毫秒级完成,container 编排假设 workload 是无状态的——Agent 两个都不是。
2. Graph-backed Observability(图化可观测)
Agent 决策 → 工具调用 → 子 Agent 生成 → 结果回流
↓ 每一步都被记录
可以追溯完整的推理链
不是事后加 logging——是架构层面的执行图。凌晨出事了,你能看到 Agent 在哪一步做了什么决策、调用了什么 payload。
3. Managed OAuth(托管认证)
支持 Google、Slack、Discord、X/Twitter、Microsoft、Salesforce、Notion 等。
一次连接,Agent 自动处理 token 刷新、加密存储(AES-256-GCM)、运行时注入。你不用写一行 OAuth 代码。
4. Deep-Agents(深度 Agent)
Orchestrator
├── Research Agent → web search app
├── Analysis Agent → long-context LLM
└── Writer Agent → post to X
Agent 可以生成子 Agent 作为 tools。编排者保持上下文聚焦,专家 Agent 处理子任务,结果回流。
5. 150+ Apps
| 类别 | 数量 | 示例 |
|---|---|---|
| Image Gen | 50+ | FLUX, Gemini, Reve |
| Video Gen | 40+ | Google Veo, Seedance, Wan |
| LLM | 500+ | Claude, GPT, Gemini, Kimi, GLM |
| Web Search | 2+ | Tavily, Exa |
| Social | 1+ | X/Twitter API |
还能自己做 App:infsh app init → 写代码 → infsh app deploy。Schema 自动变成 tool 参数。
6. Human in the Loop
Agent 在高风险操作前暂停,展示要做什么,等人确认。这不是 feature——是设计约束。
7. Widgets
Agent 可以实时生成交互式 UI(表单、选择器、图表),内联渲染。不需要前端开发。
架构概念
Apps (单功能工具)
↓ 组合
Flows (可视化工作流 DAG)
↓ 被调用
Agents (AI 决策者)
↓ 运行在
Workers (执行环境:云端 or 私有)
↓ 产生
Tasks (执行实例,有状态)
三种使用方式
- No Code:在 UI 里搭建,自带聊天界面
- Low Code:在 UI 里设计,几行代码集成
- Full Code:Python/JS SDK 完全控制
定价
按使用量付费,不需要订阅。Tier 根据累计用量自动升级:
| 层级 | 并发 Agent | 并发 API 调用 | 结果存储 | 特殊功能 |
|---|---|---|---|---|
| Starter | 基础 | 基础 | 标准 | BYOK |
| Growth | 更多 | 更多 | 扩展 | + 团队空间 + 私有 App |
| Scale | 最高 | 最高 | 最大 | + 优先队列 + 定制集成 |
| Enterprise | 定制 | 定制 | 定制 | SSO/SAML + 审计日志 + 自部署 |
具体价格未公开,需要注册查看。
Trust Manifesto
inference.sh 发布了一份 Trust Manifesto,核心原则:
1. Visibility over blind automation — 不能是黑盒
2. Control before irreversibility — 高风险操作前人可以介入
3. Memory instead of amnesia — 系统记住发生了什么以及为什么
4. Durability over fragility — 优雅降级而非灾难性崩溃
5. Optionality over lock-in — 不绑定单一模型/供应商
而且他们明确说了不claim什么:不claim完美安全、不claim零bug、不claim已通过企业认证。这种诚实在 AI 基础设施公司里很少见。
与我们的关联
和 OpenClaw 的定位对比
| inference.sh | OpenClaw | |
|---|---|---|
| 定位 | Agent 生产运行时(PaaS) | 个人 AI Agent 框架 |
| 目标用户 | 开发团队部署 Agent 产品 | 个人/小团队跑自己的 Agent |
| 部署方式 | 云端托管 / 自部署 | 本地 / VPS |
| 状态管理 | Graph-backed checkpoint | 文件系统 + 内存 |
| OAuth | 托管 7+ 服务 | 插件式(gog, 飞书等) |
| 计费 | 按执行付费 | 自己付模型 API 费用 |
| 可观测性 | 内建执行图 | 日志 + trace |
| 开源 | Skills 开源,核心闭源 | 核心开源 |
互补还是竞争?
互补。inference.sh 解决的是"把 Agent 部署给用户"的问题——你做了一个 SaaS 产品,需要让 1000 个用户各自跑 Agent。OpenClaw 解决的是"我自己用一个超级 Agent"的问题。
如果我们未来想把 deep-research 做成服务(让别人也能用),inference.sh 这类平台就值得考虑。
Claude Code 集成
inference.sh 提供了 Claude Code 的 Skills 包,可以直接安装:
/plugin install inference-sh
给 Claude Code 提供 150+ 工具能力(image gen, video gen, web search 等)。
未解问题
- 团队背景不明:没找到创始人/融资信息,blog 最早 2026-01-06
- 定价不透明:具体价格需注册才能看
- 用户量未知:没有公开的客户案例或用户数据
- 和 Temporal/Inngest 的区别:都做 durable execution,inference.sh 的差异化主要在 AI-native(内建 LLM 路由、tool schema 自动映射)
评分
| 维度 | 分数 | 说明 |
|---|---|---|
| 创意 | 7/10 | "Agent Runtime" 概念不算新,但 execution graph + widgets 有亮点 |
| 实用性 | 8/10 | 真正解决 demo→production 的痛点,150+ apps 开箱即用 |
| 技术实现 | 8.5/10 | Durable execution + managed OAuth + deep-agents 架构完整 |
| 生态整合 | 8/10 | 500+ 模型、Claude Code plugin、7+ OAuth 集成 |
| 透明度 | 6/10 | 团队不明、定价不透明、没有公开客户案例 |
| 与我们的相关性 | 5/10 | 和我们个人 Agent 场景不直接相关,更像是 Agent SaaS 基础设施 |
| **综合** | **7.5/10** |
关键链接
- 官网:https://inference.sh/
- 运行时详解:https://inference.sh/ai-agent-runtime
- Trust Manifesto:https://inference.sh/trust
- 文档:https://inference.sh/docs
- GitHub Skills:https://github.com/inference-sh/skills
- 定价:https://inference.sh/pricing
- Blog:https://inference.sh/blog/agent-runtime/why-runtimes-matter
> 一句话总结:inference.sh 是 AI Agent 领域的 Vercel/Railway——你写 Agent 逻辑,它管运维。Durable execution 解决长时间任务掉线问题,managed OAuth 省去认证开发,execution graph 让调试不再抓瞎。适合做 Agent SaaS 产品的团队。对我们个人 Agent 场景不直接相关,但 Trust Manifesto 里的设计原则值得学习。