WebSockets技术让AI代理工作流提速40%：OpenAI如何突破API瓶颈实现千级TPS

【资讯摘要】 WebSockets技术让OpenAI的Responses API实现了40%的性能飞跃，使GPT-5.3-Codex-Spark模型能够达到1000 TPS的推理速度。更可能的原因是传统的HTTP请求模式在处理复杂的AI代理工作流时存在结构性瓶颈，每次请求都需要重新建立连接、处理完整对话历史，导致大量重复计算和网络开销。通过WebSockets建立持久连接，OpenAI能够在内存中缓存对话状态和已渲染的token，避免了每次请求的冗余处理，特别在Codex这类需要多次工具调用的复杂任务中效果显著。这项技术突破不仅减少了API服务层的延迟，更重要的是让用户能够真正体验到硬件加速带来的推理速度提升。

【快速解读】 本质上是将AI代理工作流从离散的HTTP请求模式转变为连续的WebSocket会话模式，通过状态缓存和连接复用大幅减少API开销。

事件背景：关于WebSockets技术的最新进展

2025年11月，OpenAI启动了一项针对Responses API的性能优化冲刺，目标是让新发布的GPT-5.3-Codex-Spark模型能够充分发挥其硬件加速潜力。这款专门为代码生成优化的模型在Cerebras专用硬件上能够实现超过1000 TPS（每秒token数）的推理速度，比之前的GPT-5和GPT-5.2模型的65 TPS快了一个数量级。然而，传统的Responses API架构成为了瓶颈——即使模型推理速度大幅提升，用户仍然需要等待API服务层处理每个请求。在复杂的WebSockets技术代理工作流中，如Codex修复bug时需要扫描代码库、读取文件、构建上下文、进行编辑并运行测试验证，这涉及数十个来回的API请求，累积的延迟可能达到数分钟。随着模型推理速度的提升，API服务层的开销变得愈发明显，用户无法真正体验到硬件加速带来的速度优势。

核心分析：WebSockets技术背后的深层原因

更可能的原因是传统HTTP请求模式在处理AI代理工作流时存在根本性的结构缺陷。在Codex这样的复杂任务中，每个工具调用都需要完整的请求-响应循环：确定模型的下一个动作、在客户端运行工具、将工具输出发送回API、重复这个过程。每次请求都需要重新建立HTTP连接、验证请求、处理完整的对话历史、进行tokenization等预处理工作。即使对话内容大部分没有变化，系统仍然需要为完整的历史记录支付计算成本。随着对话变长，这种重复处理的开销呈指数级增长。

OpenAI团队发现，API服务层、模型推理和客户端工具执行这三个主要阶段中，随着推理速度从65 TPS提升到1000 TPS，API服务层的相对开销变得不可忽视。用户需要等待CPU完成API处理才能使用GPU进行推理，形成了新的性能瓶颈。技术团队尝试了缓存渲染的token、减少网络跳数、优化安全栈等多种优化手段，虽然将首token时间（TTFT）提升了45%，但仍不足以匹配GPT-5.3-Codex-Spark的推理速度。

最终的突破来自对传输协议的重新思考：用持久连接替代离散请求。WebSockets方案允许服务器在连接范围内维护内存缓存，存储前一个响应的状态、输入输出项、工具定义和命名空间、可重用的采样工件等。当后续请求包含previous_response_id时，系统可以直接从缓存中获取状态，而不是从头重建完整对话。这种设计实现了多项关键优化：安全分类器和请求验证器只需处理新输入、维护已渲染token的内存缓存避免重复tokenization、重用成功的模型解析/路由逻辑、将计费等非阻塞的后推理工作与后续请求重叠执行。

行业影响：WebSockets技术意味着什么

这意味着什么：WebSockets技术的应用标志着AI API架构的重要演进，从离散的请求-响应模式向连续的会话模式转变。这不仅大幅提升了性能，更重要的是为复杂的多步AI代理任务提供了更自然的交互范式。技术上的突破在于将工具调用本地化处理——当模型需要执行工具时，推理循环会暂停，通过WebSocket将工具调用发送给客户端，等待客户端返回结果后再继续采样，这类似于将本地工具调用视为托管服务调用。

对谁影响最大：这项技术对构建复杂AI代理应用的开发者影响最大，特别是那些依赖Codex进行代码生成、bug修复、系统维护的编程工具和平台。AI代理初创公司能够为用户提供更流畅、响应更快的体验，减少用户等待时间，提升产品竞争力。同时，这也为需要大量工具调用的复杂工作流（如数据分析、自动化测试、系统监控等）开辟了新的可能性。

普通人是否需要关注：普通用户可能不会直接感受到技术细节的变化，但会明显体验到AI工具响应速度的提升。对于使用AI编程助手、智能客服、自动化工作流工具的用户来说，等待时间的减少意味着工作效率的提升。更重要的是，这种架构优化为更复杂、更智能的AI应用奠定了基础，未来可能会有更多需要多步推理和工具调用的AI功能变得实用化。

核心变化： Responses API从离散HTTP请求模式转变为WebSocket持久连接模式，通过状态缓存和连接复用将AI代理工作流速度提升40%

应用场景与工具： 适用于需要多次工具调用的复杂AI代理任务，如Codex代码修复、多步数据分析、自动化测试工作流，需要支持WebSocket的客户端环境

原文链接：查看原文

WebSockets技术让AI代理工作流提速40%：OpenAI如何突破API瓶颈实现千级TPS

事件背景：关于WebSockets技术的最新进展

核心分析：WebSockets技术背后的深层原因

行业影响：WebSockets技术意味着什么

发表回复

Searching in