OpenAI 发布 GPT-5.5,目前向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户开放,同步上线 Codex。API 将"很快"跟进。
GPT-5.5 的核心卖点是"更聪明但不变慢"。OpenAI 声称它在实际服务中的每 token 延迟与 GPT-5.4 持平,同时完成同样的 Codex 任务消耗更少 token。换句话说,能力提升的同时效率也在涨。
跑分方面,GPT-5.5 在多个基准上刷新了纪录。Terminal-Bench 2.0(复杂命令行工作流测试)拿到 82.7%,GPT-5.4 是 75.1%,Claude Opus 4.7 是 69.4%。在 OSWorld(让模型独立操作真实计算机环境)上达到 78.7%,与 Claude Opus 4.7 的 78.0% 接近。GDPval(对标 44 个职业的行业专家产出质量)得分 84.9%,也领先一个身位。不过 SWE-Bench Pro 上,Claude Opus 4.7 的 64.3% 仍然高于 GPT-5.5 的 58.6%,OpenAI 自己在表格里也标注了该基准存在记忆化问题。
数学和科研领域的提升更显著。FrontierMath Tier 4 从 GPT-5.4 的 27.1% 跳到 35.4%,但 Claude Opus 4.7 只有 22.9%。OpenAI 还发布了一篇用 GPT-5.5 内部版本辅助发现的 Ramsey 数新证明,已在 Lean 中完成验证。新推出的 GeneBench 测试多阶段遗传学数据分析,GPT-5.5 拿到 25.0%,GPT-5.4 是 19.0%。
第三方机构 Artificial Analysis 的综合智能指数显示了一个有趣的效率对比:在相同智能水平下,GPT-5.5 消耗的 token 总量大约是竞品前沿编码模型的一半。这对 API 用户来说是实打实的成本优势。
定价方面,API 为 5 美元/百万输入 token、30 美元/百万输出 token,上下文窗口 100 万 token。GPT-5.5 Pro 定价更高,30 美元输入、180 美元输出。虽然单价高于 GPT-5.4,但 OpenAI 强调 token 效率的提升可以对冲价格差异。
安全方面,OpenAI 将 GPT-5.5 的网络安全和生物/化学能力归为 Preparedness Framework 下的"High"级别(未达 Critical)。CyberGym 得分 81.8%,高于 Claude Opus 4.7 的 73.1%。同时推出了面向安全研究人员的 Trusted Access for Cyber 计划,降低合规用户的安全限制。
OpenAI 内部已经有超过 85% 的员工每周使用 Codex,覆盖工程、财务、市场、数据科学等职能。文中提到的一个案例:财务团队用 Codex 审阅了 24,771 份 K-1 税表,共 71,637 页,比去年提前两周完成。