“我们内部已经有 Gemini 3 水平的模型,并且有信心很快发布,之后还会有更强的型号!” OpenAI 首席研究负责人 Mark Chen 在 Core Memory 的播客上透露。Sam 的职责之一就是“放大紧迫感”,他自己的角色也类似,会刻意强调竞争压力让整个组织保持高压前进,所以大家才会看到那封内部的“红色警戒”备忘录🚨
前两天和 OpenAI 的同学吃饭还提到他们内部确实都在体验 Gemini 3。因为但单看公开基准测试不足以判断真实差距,让足够多的研究员在真实任务中摸一摸,再形成集体判断。
Mark 说自己有一个“私藏的数学难题”(“42 问题”),专门用来测试不同模型的推理能力 —— 包括最新的“思考模型”。到目前为止,所有模型都只能接近最优解,还没有完全攻克它,这对他来说是一件“好事”:说明还有空间可以继续前进。
在 SWE‑bench 这类软件工程基准上,Google 模型的表现虽然不错,但在“用多少数据/算力达成一定效果”这件事上,还有明显的优化空间,而 OpenAI 在这方面的算法储备非常强,这是他们下一轮反击的一个核心筹码!
过去两年。OpenAI 其实把大量资源都投向推理模型,预训练和后训练的“肌肉”有所退化;最近半年,在组织层面重新把焦点拉回预训练。Mark 明确反对“Scaling 已死”的说法,他认为在预训练和数据塑形上还有巨大空间;
现在要做的是更精细的“数据塑形”和“合成数据”,通过更聪明的预训练策略,让模型从“模仿人类写作/代码”的模式,转向真正学会更高层次的抽象✨