【资讯摘要】 WebSockets技术让OpenAI的Responses API实现了40%的性能飞跃,使GPT-5.3-Codex-Spark模型能够达到1000 TPS的推理速度。更可能的原因是传统的HTTP请求模式在处理复杂的AI代理工作流时存在结构性瓶颈,每次请求都需要重新建立连接、处理完整对话历史,导致大量重复计算和网络开销。通过WebSockets建立持久连接,OpenAI能够在内存中缓存对话状态和已渲染的token,避免了每次请求的冗余处理,特别在Codex这类需要多次工具调用的复杂任务中效果显著。这项技术突破不仅减少了API服务层的延迟,更重要的是让用户能够真正体验到硬件加速带来的推理速度提升。
【快速解读】 本质上是将AI代理工作流从离散的HTTP请求模式转变为连续的WebSocket会话模式,通过状态缓存和连接复用大幅减少API开销。
事件背景:关于WebSockets技术的最新进展
2025年11月,OpenAI启动了一项针对Responses API的性能优化冲刺,目标是让新发布的GPT-5.3-Codex-Spark模型能够充分发挥其硬件加速潜力。这款专门为代码生成优化的模型在Cerebras专用硬件上能够实现超过1000 TPS(每秒token数)的推理速度,比之前的GPT-5和GPT-5.2模型的65 TPS快了一个数量级。然而,传统的Responses API架构成为了瓶颈——即使模型推理速度大幅提升,用户仍然需要等待API服务层处理每个请求。在复杂的WebSockets技术代理工作流中,如Codex修复bug时需要扫描代码库、读取文件、构建上下文、进行编辑并运行测试验证,这涉及数十个来回的API请求,累积的延迟可能达到数分钟。随着模型推理速度的提升,API服务层的开销变得愈发明显,用户无法真正体验到硬件加速带来的速度优势。
核心分析:WebSockets技术背后的深层原因
更可能的原因是传统HTTP请求模式在处理AI代理工作流时存在根本性的结构缺陷。在Codex这样的复杂任务中,每个工具调用都需要完整的请求-响应循环:确定模型的下一个动作、在客户端运行工具、将工具输出发送回API、重复这个过程。每次请求都需要重新建立HTTP连接、验证请求、处理完整的对话历史、进行tokenization等预处理工作。即使对话内容大部分没有变化,系统仍然需要为完整的历史记录支付计算成本。随着对话变长,这种重复处理的开销呈指数级增长。
OpenAI团队发现,API服务层、模型推理和客户端工具执行这三个主要阶段中,随着推理速度从65 TPS提升到1000 TPS,API服务层的相对开销变得不可忽视。用户需要等待CPU完成API处理才能使用GPU进行推理,形成了新的性能瓶颈。技术团队尝试了缓存渲染的token、减少网络跳数、优化安全栈等多种优化手段,虽然将首token时间(TTFT)提升了45%,但仍不足以匹配GPT-5.3-Codex-Spark的推理速度。
最终的突破来自对传输协议的重新思考:用持久连接替代离散请求。WebSockets方案允许服务器在连接范围内维护内存缓存,存储前一个响应的状态、输入输出项、工具定义和命名空间、可重用的采样工件等。当后续请求包含previous_response_id时,系统可以直接从缓存中获取状态,而不是从头重建完整对话。这种设计实现了多项关键优化:安全分类器和请求验证器只需处理新输入、维护已渲染token的内存缓存避免重复tokenization、重用成功的模型解析/路由逻辑、将计费等非阻塞的后推理工作与后续请求重叠执行。
行业影响:WebSockets技术意味着什么
这意味着什么:WebSockets技术的应用标志着AI API架构的重要演进,从离散的请求-响应模式向连续的会话模式转变。这不仅大幅提升了性能,更重要的是为复杂的多步AI代理任务提供了更自然的交互范式。技术上的突破在于将工具调用本地化处理——当模型需要执行工具时,推理循环会暂停,通过WebSocket将工具调用发送给客户端,等待客户端返回结果后再继续采样,这类似于将本地工具调用视为托管服务调用。
对谁影响最大:这项技术对构建复杂AI代理应用的开发者影响最大,特别是那些依赖Codex进行代码生成、bug修复、系统维护的编程工具和平台。AI代理初创公司能够为用户提供更流畅、响应更快的体验,减少用户等待时间,提升产品竞争力。同时,这也为需要大量工具调用的复杂工作流(如数据分析、自动化测试、系统监控等)开辟了新的可能性。
普通人是否需要关注:普通用户可能不会直接感受到技术细节的变化,但会明显体验到AI工具响应速度的提升。对于使用AI编程助手、智能客服、自动化工作流工具的用户来说,等待时间的减少意味着工作效率的提升。更重要的是,这种架构优化为更复杂、更智能的AI应用奠定了基础,未来可能会有更多需要多步推理和工具调用的AI功能变得实用化。
核心变化: Responses API从离散HTTP请求模式转变为WebSocket持久连接模式,通过状态缓存和连接复用将AI代理工作流速度提升40%
应用场景与工具: 适用于需要多次工具调用的复杂AI代理任务,如Codex代码修复、多步数据分析、自动化测试工作流,需要支持WebSocket的客户端环境
原文链接:查看原文