Andrej 对 Grok 3 的评价还蛮高的:Grok 3 + Thinking 给我的感觉是:它大概和 OpenAI 最强的模型(比如 o1-pro,月费 200 美元)相当,比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 略好一些。
***
Andrej Karpathy
我今天早些时候拿到了 Grok 3 的提前体验权限,可能算是最早能对它进行快速“感觉检查”(vibe check)的少数人之一。
Thinking
✅ 首先,Grok 3 的“思考模型”(点击“Think”按钮)明显达到了接近当前前沿水平。在我测试的卡坦岛(Settlers of Catan)相关问题上,它开箱即用就表现得相当不错:
“创建一个网页版的棋盘游戏,显示一个六边形网格,就像卡坦岛游戏那样。每个六边形都按 1..N 编号,其中 N 是所有六边形的数量。要做成通用的,让用户可以用滑杆改变‘环’的数量,比如卡坦岛的半径是 3 个六边形。请只用一页 HTML。”
很少有模型能稳定地正确理解这个需求。OpenAI 的顶级思考模型(比如 o1-pro,月费 200 美元)也能做到,但 DeepSeek-R1、Gemini 2.0 Flash Thinking 和 Claude 都做不到。
❌ 它没能解决我的“表情符号谜题”问题:我给了一个带有隐藏信息的笑脸(利用 Unicode 变体选择器嵌入消息),并且提供了如何解码的 Rust 代码提示。到目前为止,我见过最好进展的是 DeepSeek-R1,曾经解码了一部分信息。
❓ 它能很好地解出我给的几个井字棋棋盘,并给出相当干净的思路链(很多 SOTA 级模型常在这种题上翻车)。于是我提高了难度,让它生成 3 个“刁钻”的井字棋棋盘,但它没成功(生成了无意义的棋盘和文本)。不过 o1-pro 也没有做好。
✅ 我上传了 GPT-2 的论文,然后提了一堆简单的查找问题,全都回答得不错。接着,我让它在无需搜索的情况下估算训练 GPT-2 所需的训练 FLOPs。这道题难就难在 GPT-2 的训练数据中标明的 token 数量并不明确,需要部分估算、部分计算,这对查找、知识和数学的综合要求相当高。举个例子,假设 40GB 文本差不多相当于 400 亿字符(假定 ASCII),也就是 400 亿字节,约合 100 亿个 token(假设 4 字节/每个 token),训练了大约 10 个 epoch,相当于 1000 亿个 token 训练量,模型大小是 15 亿参数,如果每个参数每个 token 需要 6 次浮点运算(2+4=6),那么总计算量大约是 100×10^9 × 1.5×10^9 × 6,约等于 10^21 次浮点运算。Grok 3 和 4o 都没能直接给出答案,但 Grok 3 开启思考模式后就解出来了,而 o1-pro(GPT 思考模型)则失败了。
我很喜欢这个模型会尝试去解决黎曼猜想,就像 DeepSeek-R1 那样,而不会像许多其它模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)那样马上认输并说这是一个尚未解决的重大难题。最终我不得不让它停止,因为我有点担心它“太投入”,但至少它的尝试让我觉得它很“有勇气”。说不定哪天真的能解开呢……
总的来说,我的直观感受是:它大概处于 o1-pro 水平附近,比 DeepSeek-R1 强一些。当然,我们还需要更多真正的测试和评估才能确定。
DeepSearch
这是一个很有意思的新功能,似乎结合了类似 OpenAI / Perplexity 所谓的“Deep Research”功能和思考能力。不过他们用的是“Deep Search”而不是“Deep Research”。它可以对各种需要检索/查找类问题给出高质量回答,我尝试了一些问题,这些问题其实是从我最近在 Perplexity 上的搜索记录里“偷”过来的,结果大致如下:
✅ “即将到来的苹果发布会怎么样?有什么传闻吗?”
✅ “为什么 Palantir 的股价最近在上涨?”
✅ “《白莲花度假村》第三季在哪里拍摄?是否还是前两季的原班人马?”
✅ “Bryan Johnson 用的是什么牙膏?”
❌ “《单身即地狱》第四季的嘉宾现在都怎么样了?”
❌ “Simon Willison 提到过他在用哪款语音转文字软件?”
❌ 我发现一些比较明显的问题,比如模型默认情况下不喜欢把 X 当做信息来源引用,除非你明确告诉它要这样做。有几次我发现它编造了不存在的 URL;还有一些情况它看似给出了“事实性”信息,但没有引用来源,而且根据我的判断那很可能是错误的。比如它告诉我“Singles Inferno 第四季”里的某两位嘉宾(Kim Jeong-su 和 Kim Min-seol)还在约会,但我几乎可以肯定这是胡说。而当我让它做一份主要 LLM 实验室的融资总额和员工数量估算报告时,它列出了 12 家主要实验室,却没有把自己(xAI)包括进来。
我对 DeepSearch 的印象是,它大约能达到 Perplexity DeepResearch 水平(其实已经很不错了!),但还没有 OpenAI 最近发布的“Deep Research”那么全面或可靠。当然,“Deep Research”也不完美,比如它同样没有把 xAI 统计为“主要 LLM 实验室”。
一些随机的 LLM “陷阱”测试
我又测试了一些有趣的或随机的 LLM“陷阱”,这些题目对人类来说并不难,但对 LLM 往往是“死角”。我想看看 Grok 3 在这方面做得如何:
✅ Grok 3 知道“strawberry”里有 3 个“r”,但它同时告诉我“LOLLAPALOOZA”里只有 3 个“L”,显然错了。不过开启思考模式后就能纠正。
✅ Grok 3 说 9.11 大于 9.9(其实其他一些 LLM 也常犯这个错),不过开启思考后也能修正。
✅ 几个简单的谜题在未开启思考模式时也能解决,比如 “Sally(一个女孩)有 3 个兄弟,每个兄弟都有 2 个姐妹。Sally 有几个姐妹?”很多模型(例如 GPT4o)会错答成 2,但 Grok 3 答得对。
❌ 遗憾的是这个模型的幽默感没有明显提升。LLM 在幽默和防止“同质化”方面普遍有问题;众所周知,ChatGPT 在被要求讲笑话时,90% 的结果都集中在那 25 个反复出现的段子里。即使我引导它偏离简单的文字游戏或双关(比如让它生成单口喜剧),我也不觉得它的幽默水平达到了前沿。举个例子,它生成的笑话是:“为什么鸡要加入乐队?因为它有鼓槌,还想当个咯咯咯的摇滚明星!”——听起来很普通。而且开启思考似乎也并没有帮它变得更好,甚至有点适得其反。
❌ 模型对“复杂伦理问题”还是显得过度敏感。比如,我问它是否可以在特定情况下“误称别人的性别”以挽救 100 万条人命,它就给我写了一整页几乎都在回避这个问题。
❌ 关于 Simon Willison 的“生成一张鹈鹕骑自行车的 SVG 图片”,这个任务会考验 LLM 对 2D 坐标布局的把控。因为 LLM 没有视觉,只能盲目地在文本中安排元素。所以尽管它生成的鹈鹕看起来还不错,但在细节上还是有问题(我也附了截图和对比)。目前看 Claude 在这方面做得最好,我猜可能是它的训练中特意强化了 SVG 生成能力。
总结
在我用大约 2 小时做的快速体验中,Grok 3 + Thinking 给我的感觉是:它大概和 OpenAI 最强的模型(比如 o1-pro,月费 200 美元)相当,比 DeepSeek-R1 和 Gemini 2.0 Flash Thinking 略好一些。考虑到 xAI 团队从零开始到现在不过一年时间,就能达到这样的前沿水平,真的让人赞叹不已。
当然要注意一些局限:模型本身是随机的,多次生成答案可能会有差异,目前还在早期阶段,需要更多时间和更多评估去验证。我留意到早期的 LM 测试结果很有希望。总之,恭喜 xAI 团队,他们显然拥有极强的执行力和快速迭代能力。我个人也很期待把 Grok 3 纳入我“LLM 议会”里,让它以后多发表见解。
点击图片查看原图