“我们内部已经有 Gemini 3 水平的模型，并且有信心很快发布，之后还会有更强的型号！” OpenAI 首席研究负责人 Mark Chen 在 Core Memory 的播客上透露。Sam 的职责之一就是“放大紧迫感”，他自己的角色也类似，会刻意强调竞争压力让整个组织保持高压前进，所以大家才会看到那封内部的“红色警戒”备忘录🚨

发布时间: 2025-12-03 16:50:11

1分

数据加载中

“我们内部已经有 Gemini 3 水平的模型，并且有信心很快发布，之后还会有更强的型号！” OpenAI 首席研究负责人 Mark Chen 在 Core Memory 的播客上透露。Sam 的职责之一就是“放大紧迫感”，他自己的角色也类似，会刻意强调竞争压力让整个组织保持高压前进，所以大家才会看到那封内部的“红色警戒”备忘录🚨
IT技术
( twitter.com )

“我们内部已经有 Gemini 3 水平的模型，并且有信心很快发布，之后还会有更强的型号！” OpenAI 首席研究负责人 Mark Chen 在 Core Memory 的播客上透露。Sam 的职责之一就是“放大紧迫感”，他自己的角色也类似，会刻意强调竞争压力让整个组织保持高压前进，所以大家才会看到那封内部的“红色警戒”备忘录🚨

前两天和 OpenAI 的同学吃饭还提到他们内部确实都在体验 Gemini 3。因为但单看公开基准测试不足以判断真实差距，让足够多的研究员在真实任务中摸一摸，再形成集体判断。

Mark 说自己有一个“私藏的数学难题”（“42 问题”），专门用来测试不同模型的推理能力 —— 包括最新的“思考模型”。到目前为止，所有模型都只能接近最优解，还没有完全攻克它，这对他来说是一件“好事”：说明还有空间可以继续前进。

在 SWE‑bench 这类软件工程基准上，Google 模型的表现虽然不错，但在“用多少数据/算力达成一定效果”这件事上，还有明显的优化空间，而 OpenAI 在这方面的算法储备非常强，这是他们下一轮反击的一个核心筹码！

过去两年。OpenAI 其实把大量资源都投向推理模型，预训练和后训练的“肌肉”有所退化；最近半年，在组织层面重新把焦点拉回预训练。Mark 明确反对“Scaling 已死”的说法，他认为在预训练和数据塑形上还有巨大空间；

现在要做的是更精细的“数据塑形”和“合成数据”，通过更聪明的预训练策略，让模型从“模仿人类写作/代码”的模式，转向真正学会更高层次的抽象✨