Cloudflare Workers AI 正式上线 Kimi K2.5:首个前沿级开源大模型登陆边缘推理平台
来源:Cloudflare 官方 Changelog · 阅读时长:约 8 分钟

Cloudflare 宣布将月之暗面(Moonshot AI)旗下的 Kimi K2.5 引入 Workers AI 推理平台。这是 Workers AI 首次上线前沿规模(frontier-scale)的开源大模型,意味着开发者现在可以在 Cloudflare 的全球边缘网络上直接运行高水平 AI 推理,而不必依赖昂贵的闭源 API。
为什么这件事值得关注
在此之前,Cloudflare Workers AI 主要托管的是中小规模模型——足够应付翻译、摘要、嵌入等轻量场景,但在复杂推理和 Agent 工作流方面的表现与 GPT、Claude 等闭源前沿模型存在明显差距。Kimi K2.5 的加入打破了这一局面。
Kimi K2.5 由北京 Moonshot AI 于 2026 年 1 月正式发布,采用 MoE(混合专家)架构,总参数约 1 万亿,每次推理激活约 320 亿参数。模型在代码生成、视觉理解、Agent 自主任务等维度上已经与 GPT-5.2 和 Claude Sonnet 4.5 处于同一梯队,并且完全开源。它被广泛认为是截至 2026 年第一季度最强的中国开源大模型。
现在它直接跑在 Cloudflare 的边缘节点上,这对开发者来说的实际意义是:整个 Agent 生命周期——从推理到工具调用、再到上下文管理——可以在同一个平台上完成,不必在多个供应商之间跳转。
Kimi K2.5 核心能力一览
256K 上下文窗口:完整保留对话历史、工具定义和代码库上下文,适合长时间运行的 Agent 会话。在同类开源模型中,256,000 token 的上下文长度属于顶级水平。
多轮工具调用(Multi-turn Tool Calling):支持跨多个对话轮次调用外部工具和 API,构建真正的多步骤 Agent 工作流。Agent 可以在一次会话中反复调用搜索、数据库、代码执行等工具,模型会根据前序结果决定下一步动作。
视觉输入(Vision Inputs):原生多模态架构,支持图像与文本的联合理解。不同于将视觉和语言能力分别训练后拼接的方案,Kimi K2.5 从预训练阶段就将图像和文本 token 统一处理,可以从 UI 设计稿直接生成前端代码。
结构化输出(Structured Outputs):支持 JSON Mode 和 JSON Schema,确保下游系统可靠地解析模型返回结果,避免因输出格式不稳定导致的 Agent 流程中断。
函数调用(Function Calling):用于将外部工具和 API 集成到 Agent 工作流中,与多轮工具调用配合使用,让模型能够自主规划和执行复杂任务。
前缀缓存与会话亲和性
在 Agent 场景中,每次新请求通常会重新发送前序的全部提示词、工具定义和上下文。这意味着连续两次请求之间真正"新增"的内容往往只有几行文本,但传统推理流程却要对整个输入重新编码。
Cloudflare Workers AI 在 Kimi K2.5 上启用了前缀缓存(Prefix Caching)机制。共享的上下文前缀不会被重复处理,直接从缓存中读取。效果体现在两个关键指标上:
- 首 Token 生成时间(TTFT)降低:跳过了重复前缀的计算,模型可以更快开始输出。
- 整体吞吐量(TPS)提升:节省的计算资源被分配给实际新增的内容处理。
同时,缓存命中的 token 计费低于正常输入 token,进一步压缩了 Agent 场景下的推理成本。
开发者可以通过在请求头中设置 x-session-affinity 来绑定会话到特定节点,最大化缓存命中率:
curl -X POST \
"https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/moonshotai/kimi-k2.5" \
-H "Authorization: Bearer {api_token}" \
-H "Content-Type: application/json" \
-H "x-session-affinity: ses_12345678" \
-d '{
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "什么是前缀缓存?它为什么重要?"}
],
"max_tokens": 2400,
"stream": true
}'
部分客户端(如 OpenCode)会自动处理会话亲和性。Cloudflare 官方的 Agents SDK 也提供了开箱即用的配置方案,无需开发者手动管理 session header。
全新异步批量推理 API
对于推理请求量超出同步速率限制的场景,Cloudflare 重新设计了异步批量 API。新方案采用拉取式队列(Pull-based Queue):请求被提交后进入队列,系统在有可用算力时自动拉取并执行。根据 Cloudflare 内部测试,异步请求通常在 5 分钟内完成,但实际耗时取决于当前流量负载。
这个接口尤其适合不需要实时响应的应用场景,比如批量代码扫描 Agent、研究型信息检索 Agent,以及持久化工作流中需要避免容量报错的情况。
// 1. 将请求批量推入队列
const res = await env.AI.run(
"@cf/moonshotai/kimi-k2.5",
{
requests: [
{ messages: [{ role: "user", content: "讲个笑话" }] },
{ messages: [{ role: "user", content: "解释勾股定理" }] },
],
},
{ queueRequest: true }
);
// 2. 获取请求 ID
const requestId = res.request_id;
// 3. 轮询结果
const result = await env.AI.run("@cf/moonshotai/kimi-k2.5", {
request_id: requestId,
});
if (result.status === "queued" || result.status === "running") {
// 继续轮询...
} else {
return Response.json(result);
}
除了轮询,开发者也可以配置 Cloudflare 的事件通知(Event Notifications),在推理完成时自动接收回调,避免反复轮询造成的资源浪费。
Kimi K2.5 模型背景
Kimi K2.5 是由北京月之暗面科技有限公司(Moonshot AI)开发的开源多模态大模型。Moonshot AI 成立于 2023 年,创始人杨植麟曾在 ByteDance 从事 NLP 研究,公司获得了阿里巴巴和红杉中国(现更名为 HongShan)的投资支持。
Kimi K2.5 基于 Kimi K2 基座模型,通过大约 15 万亿混合视觉与文本 token 进行持续预训练。以下是它最显著的技术特点:
原生多模态架构:从预训练阶段就将图像和文本 token 统一处理,使视觉理解与语言推理能力在同一个体系中协同发展,而非后期拼接。
Agent Swarm 技术:Kimi K2.5 能自主拆分复杂任务,并行调度多达 100 个子 Agent 同时执行,通过一个可训练的"编排器"管理工作流。在网页浏览与搜索基准 BrowseComp 上,Agent Swarm 模式取得了所有已测试模型中的最佳成绩(78.4%),超过了标准模式下的 60.6%。
视觉编程能力:可以从 UI 设计稿、视频片段等视觉输入直接生成交互式前端代码,包括动态布局和滚动动画等复杂效果。
双推理模式:支持 Thinking(深度推理)和 Instant(快速响应)两种模式。Thinking 模式适合复杂多步骤任务,Instant 模式适合低延迟的日常对话场景。
Cloudflare Workers AI 上的成本优势
将 Kimi K2.5 部署在 Cloudflare Workers AI 上的最大吸引力之一在于成本。作为开源模型通过边缘推理服务提供,其定价远低于调用闭源前沿模型的 API。
| 对比维度 | Kimi K2.5(Workers AI) | 闭源前沿模型(参考) |
|---|---|---|
| 模型级别 | 前沿级开源 | 前沿级闭源 |
| 上下文窗口 | 256K tokens | 128K - 200K tokens |
| 多模态支持 | 原生视觉+文本 | 视觉+文本 |
| 部署方式 | 边缘节点推理 | 中心化数据中心 |
| 缓存 Token 折扣 | 支持 | 部分支持 |
| 异步批量推理 | 原生支持 | 部分支持 |
以 Moonshot AI 官方 API 定价为参照,Kimi K2.5 的输入 token 价格为 $0.60/百万,输出 token 价格为 $2.50/百万。一个每月处理 1 亿 token 的 SaaS 应用,使用 Kimi K2.5 的月度推理成本约 $310,而使用 GPT-5.4 等闭源模型可能需要 $4,000 以上。结合 Workers AI 前缀缓存的折扣,实际成本还会进一步降低。
接入方式
Cloudflare 提供了多种接入 Kimi K2.5 的途径,覆盖从快速原型到生产部署的各种场景:
Workers AI Binding:在 Cloudflare Worker 代码中通过 env.AI.run("@cf/moonshotai/kimi-k2.5", ...) 直接调用,适合与其他 Worker 功能(KV、D1、R2)深度集成的场景。
REST API:通过 /run 或 /v1/chat/completions 端点调用,适合从任何语言或平台发起请求。
OpenAI 兼容端点:完全兼容 OpenAI SDK 格式,现有使用 OpenAI 接口的代码只需修改 base URL 即可无缝切换到 Kimi K2.5。
AI Gateway:通过 Cloudflare AI Gateway 接入,可获得请求日志、速率限制、缓存等网关级功能。
适用场景分析
Kimi K2.5 在 Workers AI 上的定位非常清晰——它面向需要在边缘运行复杂 AI Agent 的开发者。以下是几个典型场景:
多步骤自主 Agent:利用 256K 上下文和多轮工具调用,Agent 可以在整个会话过程中保持对任务的完整理解,而不会因为上下文截断丢失关键信息。
代码生成与审查:将代码库上下文放入超长窗口,配合结构化 JSON 输出,实现代码扫描、重构建议、PR Review 等自动化流程。
多模态内容处理:接收图片或设计稿输入,生成前端代码、分析图表内容、提取文档信息等。
批量离线分析:通过异步 API 提交大批量推理请求,在后台完成数据分析、内容生成等不需要实时响应的任务。
常见问题
Kimi K2.5 在 Cloudflare Workers AI 上免费吗?
Cloudflare Workers AI 提供免费额度,开发者可以在免费套餐内体验 Kimi K2.5 推理服务。超出免费额度后按 token 用量计费,缓存命中的 token 价格低于正常输入 token。具体价格请参考 Cloudflare 官方 Kimi K2.5 模型页面。
Kimi K2.5 的上下文窗口有多大?
256,000 tokens。可以在单次会话中容纳完整的对话历史、工具定义和大量代码上下文,非常适合长时间运行的 Agent 任务。
如何在 Cloudflare Workers 中调用 Kimi K2.5?
模型标识符为 @cf/moonshotai/kimi-k2.5。可以通过 Workers AI binding(env.AI.run())、REST API(/run 或 /v1/chat/completions)、AI Gateway 或兼容 OpenAI 的端点调用。
Kimi K2.5 是什么模型?由谁开发?
Kimi K2.5 是北京月之暗面科技有限公司(Moonshot AI)于 2026 年 1 月发布的开源多模态大模型,基于 MoE 架构,约 1 万亿总参数,每次请求激活约 320 亿。在代码、视觉理解和 Agent 任务领域表现出色,采用 Modified MIT 许可证开源。
前缀缓存有什么好处?
Agent 场景下每次请求都会重发之前的完整上下文。前缀缓存避免了对重复前缀的重新计算,降低了首 Token 延迟(TTFT)、提升了吞吐量(TPS),并且缓存 token 的计费低于正常输入 token,直接节省推理成本。
Kimi K2.5 和 Moonshot AI 官方 API 有什么区别?
通过 Cloudflare Workers AI 调用的 Kimi K2.5 运行在 Cloudflare 的全球边缘网络上,具有更低的网络延迟(尤其是对全球用户),并可以与 Cloudflare 生态(Workers、KV、D1、R2、AI Gateway)深度集成。Moonshot AI 官方 API 则运行在其自有数据中心,提供完整的 Thinking 模式和 Agent Swarm 等高级功能。
信息来源:Cloudflare 官方 Changelog · Kimi K2.5 GitHub · Kimi 官网