inference.sh:AI Agent 的生产级运行时

> 来源: https://inference.sh/

> 日期: 2026-04-03

> 类型: AI Agent 基础设施 / PaaS

> SDK: Python (inferencesh) + JS/TS (@inferencesh/sdk)

> GitHub: https://github.com/inference-sh/skills (MIT)

🎯 一句话版本

inference.sh 是一个 AI Agent 的"生产级运行时"——你写 Agent 逻辑,它帮你搞定状态持久化、失败恢复、OAuth 管理、可观测性和按次计费。从 demo 到 production,省掉几个月的基础设施工作。

解决什么问题?

写一个 demo Agent 只要一下午。把它部署到 production 要几个月。

为什么?因为你得自己建:

你得自己建的东西需要的工时
状态持久化(用户关浏览器不丢失上下文)1-2 周
重试和恢复逻辑(API 超时/限流/认证过期)1 周
可观测性(凌晨 3 点出事了能追溯)2 周
OAuth 管理(token 存储、刷新、隔离)1-2 周
按用户计费1 周

inference.sh 把这些全做了,你只管写 Agent 逻辑。

核心能力

1. Durable Execution(持久执行)

Agent 每一步都做 checkpoint。连接断了、进程崩了、工具超时了——从上一个 checkpoint 恢复,不用从头来。

这对长时间运行的 Agent 至关重要:传统 web 框架假设请求在毫秒级完成,container 编排假设 workload 是无状态的——Agent 两个都不是。

2. Graph-backed Observability(图化可观测)


Agent 决策 → 工具调用 → 子 Agent 生成 → 结果回流
     ↓ 每一步都被记录
可以追溯完整的推理链

不是事后加 logging——是架构层面的执行图。凌晨出事了,你能看到 Agent 在哪一步做了什么决策、调用了什么 payload。

3. Managed OAuth(托管认证)

支持 Google、Slack、Discord、X/Twitter、Microsoft、Salesforce、Notion 等。

一次连接,Agent 自动处理 token 刷新、加密存储(AES-256-GCM)、运行时注入。你不用写一行 OAuth 代码。

4. Deep-Agents(深度 Agent)


Orchestrator
├── Research Agent → web search app
├── Analysis Agent → long-context LLM
└── Writer Agent → post to X

Agent 可以生成子 Agent 作为 tools。编排者保持上下文聚焦,专家 Agent 处理子任务,结果回流。

5. 150+ Apps

类别数量示例
Image Gen50+FLUX, Gemini, Reve
Video Gen40+Google Veo, Seedance, Wan
LLM500+Claude, GPT, Gemini, Kimi, GLM
Web Search2+Tavily, Exa
Social1+X/Twitter API

还能自己做 App:infsh app init → 写代码 → infsh app deploy。Schema 自动变成 tool 参数。

6. Human in the Loop

Agent 在高风险操作前暂停,展示要做什么,等人确认。这不是 feature——是设计约束。

7. Widgets

Agent 可以实时生成交互式 UI(表单、选择器、图表),内联渲染。不需要前端开发。

架构概念


Apps (单功能工具)
  ↓ 组合
Flows (可视化工作流 DAG)
  ↓ 被调用
Agents (AI 决策者)
  ↓ 运行在
Workers (执行环境:云端 or 私有)
  ↓ 产生
Tasks (执行实例,有状态)

三种使用方式

定价

按使用量付费,不需要订阅。Tier 根据累计用量自动升级:

层级并发 Agent并发 API 调用结果存储特殊功能
Starter基础基础标准BYOK
Growth更多更多扩展+ 团队空间 + 私有 App
Scale最高最高最大+ 优先队列 + 定制集成
Enterprise定制定制定制SSO/SAML + 审计日志 + 自部署

具体价格未公开,需要注册查看。

Trust Manifesto

inference.sh 发布了一份 Trust Manifesto,核心原则:

1. Visibility over blind automation — 不能是黑盒

2. Control before irreversibility — 高风险操作前人可以介入

3. Memory instead of amnesia — 系统记住发生了什么以及为什么

4. Durability over fragility — 优雅降级而非灾难性崩溃

5. Optionality over lock-in — 不绑定单一模型/供应商

而且他们明确说了不claim什么:不claim完美安全、不claim零bug、不claim已通过企业认证。这种诚实在 AI 基础设施公司里很少见。

与我们的关联

和 OpenClaw 的定位对比

inference.shOpenClaw
定位Agent 生产运行时(PaaS)个人 AI Agent 框架
目标用户开发团队部署 Agent 产品个人/小团队跑自己的 Agent
部署方式云端托管 / 自部署本地 / VPS
状态管理Graph-backed checkpoint文件系统 + 内存
OAuth托管 7+ 服务插件式(gog, 飞书等)
计费按执行付费自己付模型 API 费用
可观测性内建执行图日志 + trace
开源Skills 开源,核心闭源核心开源

互补还是竞争?

互补。inference.sh 解决的是"把 Agent 部署给用户"的问题——你做了一个 SaaS 产品,需要让 1000 个用户各自跑 Agent。OpenClaw 解决的是"我自己用一个超级 Agent"的问题。

如果我们未来想把 deep-research 做成服务(让别人也能用),inference.sh 这类平台就值得考虑。

Claude Code 集成

inference.sh 提供了 Claude Code 的 Skills 包,可以直接安装:


/plugin install inference-sh

给 Claude Code 提供 150+ 工具能力(image gen, video gen, web search 等)。

未解问题

评分

维度分数说明
创意7/10"Agent Runtime" 概念不算新,但 execution graph + widgets 有亮点
实用性8/10真正解决 demo→production 的痛点,150+ apps 开箱即用
技术实现8.5/10Durable execution + managed OAuth + deep-agents 架构完整
生态整合8/10500+ 模型、Claude Code plugin、7+ OAuth 集成
透明度6/10团队不明、定价不透明、没有公开客户案例
与我们的相关性5/10和我们个人 Agent 场景不直接相关,更像是 Agent SaaS 基础设施
**综合****7.5/10**

关键链接

> 一句话总结:inference.sh 是 AI Agent 领域的 Vercel/Railway——你写 Agent 逻辑,它管运维。Durable execution 解决长时间任务掉线问题,managed OAuth 省去认证开发,execution graph 让调试不再抓瞎。适合做 Agent SaaS 产品的团队。对我们个人 Agent 场景不直接相关,但 Trust Manifesto 里的设计原则值得学习。