inference.sh：AI Agent 的生产级运行时

> 来源: https://inference.sh/

> 日期: 2026-04-03

> 类型: AI Agent 基础设施 / PaaS

> SDK: Python (inferencesh) + JS/TS (@inferencesh/sdk)

> GitHub: https://github.com/inference-sh/skills (MIT)

🎯 一句话版本

inference.sh 是一个 AI Agent 的"生产级运行时"——你写 Agent 逻辑，它帮你搞定状态持久化、失败恢复、OAuth 管理、可观测性和按次计费。从 demo 到 production，省掉几个月的基础设施工作。

解决什么问题？

写一个 demo Agent 只要一下午。把它部署到 production 要几个月。

为什么？因为你得自己建：

你得自己建的东西	需要的工时
状态持久化（用户关浏览器不丢失上下文）	1-2 周
重试和恢复逻辑（API 超时/限流/认证过期）	1 周
可观测性（凌晨 3 点出事了能追溯）	2 周
OAuth 管理（token 存储、刷新、隔离）	1-2 周
按用户计费	1 周

inference.sh 把这些全做了，你只管写 Agent 逻辑。

核心能力

1. Durable Execution（持久执行）

Agent 每一步都做 checkpoint。连接断了、进程崩了、工具超时了——从上一个 checkpoint 恢复，不用从头来。

这对长时间运行的 Agent 至关重要：传统 web 框架假设请求在毫秒级完成，container 编排假设 workload 是无状态的——Agent 两个都不是。

2. Graph-backed Observability（图化可观测）


Agent 决策 → 工具调用 → 子 Agent 生成 → 结果回流
     ↓ 每一步都被记录
可以追溯完整的推理链

不是事后加 logging——是架构层面的执行图。凌晨出事了，你能看到 Agent 在哪一步做了什么决策、调用了什么 payload。

3. Managed OAuth（托管认证）

支持 Google、Slack、Discord、X/Twitter、Microsoft、Salesforce、Notion 等。

一次连接，Agent 自动处理 token 刷新、加密存储（AES-256-GCM）、运行时注入。你不用写一行 OAuth 代码。

4. Deep-Agents（深度 Agent）


Orchestrator
├── Research Agent → web search app
├── Analysis Agent → long-context LLM
└── Writer Agent → post to X

Agent 可以生成子 Agent 作为 tools。编排者保持上下文聚焦，专家 Agent 处理子任务，结果回流。

5. 150+ Apps

类别	数量	示例
Image Gen	50+	FLUX, Gemini, Reve
Video Gen	40+	Google Veo, Seedance, Wan
LLM	500+	Claude, GPT, Gemini, Kimi, GLM
Web Search	2+	Tavily, Exa
Social	1+	X/Twitter API

还能自己做 App：infsh app init → 写代码 → infsh app deploy。Schema 自动变成 tool 参数。

6. Human in the Loop

Agent 在高风险操作前暂停，展示要做什么，等人确认。这不是 feature——是设计约束。

7. Widgets

Agent 可以实时生成交互式 UI（表单、选择器、图表），内联渲染。不需要前端开发。

架构概念


Apps (单功能工具)
  ↓ 组合
Flows (可视化工作流 DAG)
  ↓ 被调用
Agents (AI 决策者)
  ↓ 运行在
Workers (执行环境：云端 or 私有)
  ↓ 产生
Tasks (执行实例，有状态)

三种使用方式

No Code：在 UI 里搭建，自带聊天界面
Low Code：在 UI 里设计，几行代码集成
Full Code：Python/JS SDK 完全控制

定价

按使用量付费，不需要订阅。Tier 根据累计用量自动升级：

层级	并发 Agent	并发 API 调用	结果存储	特殊功能
Starter	基础	基础	标准	BYOK
Growth	更多	更多	扩展	+ 团队空间 + 私有 App
Scale	最高	最高	最大	+ 优先队列 + 定制集成
Enterprise	定制	定制	定制	SSO/SAML + 审计日志 + 自部署

具体价格未公开，需要注册查看。

Trust Manifesto

inference.sh 发布了一份 Trust Manifesto，核心原则：

1. Visibility over blind automation — 不能是黑盒

2. Control before irreversibility — 高风险操作前人可以介入

3. Memory instead of amnesia — 系统记住发生了什么以及为什么

4. Durability over fragility — 优雅降级而非灾难性崩溃

5. Optionality over lock-in — 不绑定单一模型/供应商

而且他们明确说了不claim什么：不claim完美安全、不claim零bug、不claim已通过企业认证。这种诚实在 AI 基础设施公司里很少见。

与我们的关联

和 OpenClaw 的定位对比

	inference.sh	OpenClaw
定位	Agent 生产运行时（PaaS）	个人 AI Agent 框架
目标用户	开发团队部署 Agent 产品	个人/小团队跑自己的 Agent
部署方式	云端托管 / 自部署	本地 / VPS
状态管理	Graph-backed checkpoint	文件系统 + 内存
OAuth	托管 7+ 服务	插件式（gog, 飞书等）
计费	按执行付费	自己付模型 API 费用
可观测性	内建执行图	日志 + trace
开源	Skills 开源，核心闭源	核心开源

互补还是竞争？

互补。inference.sh 解决的是"把 Agent 部署给用户"的问题——你做了一个 SaaS 产品，需要让 1000 个用户各自跑 Agent。OpenClaw 解决的是"我自己用一个超级 Agent"的问题。

如果我们未来想把 deep-research 做成服务（让别人也能用），inference.sh 这类平台就值得考虑。

Claude Code 集成

inference.sh 提供了 Claude Code 的 Skills 包，可以直接安装：


/plugin install inference-sh

给 Claude Code 提供 150+ 工具能力（image gen, video gen, web search 等）。

未解问题

团队背景不明：没找到创始人/融资信息，blog 最早 2026-01-06
定价不透明：具体价格需注册才能看
用户量未知：没有公开的客户案例或用户数据
和 Temporal/Inngest 的区别：都做 durable execution，inference.sh 的差异化主要在 AI-native（内建 LLM 路由、tool schema 自动映射）

评分

维度	分数	说明
创意	7/10	"Agent Runtime" 概念不算新，但 execution graph + widgets 有亮点
实用性	8/10	真正解决 demo→production 的痛点，150+ apps 开箱即用
技术实现	8.5/10	Durable execution + managed OAuth + deep-agents 架构完整
生态整合	8/10	500+ 模型、Claude Code plugin、7+ OAuth 集成
透明度	6/10	团队不明、定价不透明、没有公开客户案例
与我们的相关性	5/10	和我们个人 Agent 场景不直接相关，更像是 Agent SaaS 基础设施
综合	7.5/10

关键链接

官网：https://inference.sh/
运行时详解：https://inference.sh/ai-agent-runtime
Trust Manifesto：https://inference.sh/trust
文档：https://inference.sh/docs
GitHub Skills：https://github.com/inference-sh/skills
定价：https://inference.sh/pricing
Blog：https://inference.sh/blog/agent-runtime/why-runtimes-matter

> 一句话总结：inference.sh 是 AI Agent 领域的 Vercel/Railway——你写 Agent 逻辑，它管运维。Durable execution 解决长时间任务掉线问题，managed OAuth 省去认证开发，execution graph 让调试不再抓瞎。适合做 Agent SaaS 产品的团队。对我们个人 Agent 场景不直接相关，但 Trust Manifesto 里的设计原则值得学习。