Simon Willison 这位 Django 框架的核心开发者、LLM 领域最勤奋的独立博主,每年年底都会写一篇万字长文回顾 AI 这一年。今年是第三年。
原文 https://t.co/WN0ufxZGGM 很长,我从他的年度总结中围绕
1. 2025 年 AI 最关键的技术突破是什么?
2. 哪些产品让你眼前一亮?
3. 2026 年什么趋势不可忽视?
这三个问题整理了部分内容。
【1】2025 最关键的突破:推理模型让 Agent 真正能干活了
年初 Simon 还在博客里预言“Agent 不会成功”——因为 LLM 太容易被骗了,你让它帮你干活,它可能被恶意指令带偏。
结果年底他的总结推翻了自己的语言,转折点是“推理模型”。OpenAI 的 o1、DeepSeek R1、后来各家跟进的各种“thinking”模型,让 AI 学会了“慢思考”。传统模型是看到问题就直接输出答案,推理模型会先在内部进行一连串的思考——分解问题、尝试方案、检查结果、调整方向,然后才给出答案。
通过让模型在数学和编程这类“可以自动验证对错”的任务上训练,模型自己学会了分步骤解决问题的策略。这看起来像“推理”,但本质上是训练出来的解题套路。
一个能推理的模型,配上能执行代码的沙盒,就变成了一个真正能干活的 Agent——它可以写代码、跑代码、看报错、再改代码,循环往复直到搞定。Simon 说,哪怕是最棘手的 bug,只要给一个好的推理模型足够的代码访问权限,它通常都能一路追溯到问题根源。
AI 搜索也因此从“玩具”变成了“真能用”。以前让 LLM 搜东西,结果经常驴唇不对马嘴。现在的 GPT-5 Thinking 或者 Google 的 AI Mode,可以像一个靠谱的研究助理一样帮你搜集资料、整理要点。
【2】眼前一亮的产品:编程 Agent 和消费级图片编辑
今年最炸裂的产品发布,发生在二月,而且低调到没有独立公告——Anthropic 把 Claude Code 的发布塞在了 Claude 3.7 Sonnet 的新闻稿第二段。
结果呢?到年底,这个命令行工具创造了 10 亿美元的年化收入。一个 CLI 工具,十亿美金。Simon 自己都感叹:早知道当初应该把自己的 LLM 命令行工具当主业搞。
各大厂随后疯狂跟进:OpenAI 出了 Codex CLI,Google 出了 Gemini CLI,Qwen 和 Mistral 也都下场。还有一类“异步编程 Agent”——Claude Code for Web、Codex Cloud、Google Jules——你扔个任务给它,它在云端默默干活,干完了给你提个 PR。Simon 说他现在经常在手机上随手发几个任务,几分钟后收 PR,很爽。
消费级的爆款是 ChatGPT 的图片编辑。三月上线,一周涨了一亿用户,峰值时一小时一百万注册。“吉卜力化”之类的玩法病毒式传播。图片编辑可能是目前 AI 触达普通人最成功的形态。
Google 的 Nano Banana 系列则走专业路线——它能生成带复杂文字的信息图、图表、演示材料,而且文字渲染准确。这对做内容、做汇报的人来说是真正的生产力。
【3】2026 不可忽视的趋势
第一个:中国开源模型已经占据榜首。
年底的开放权重模型排行榜,前五名全是中国公司——GLM、Kimi K2、MiMo、DeepSeek V3.2、MiniMax。DeepSeek R1 发布那天,NVIDIA 市值一天蒸发 6000 亿美元。投资人突然意识到:AI 可能不是美国独占的游戏。
第二个:安全问题的“挑战者号时刻”在逼近。
很多人用 YOLO 模式跑 Agent——不审核每一步操作,让它放飞自我。目前还没出大事,但安全研究者 Johann Rehberger 警告:这正是危险所在。1986 年挑战者号爆炸前,NASA 的工程师早就知道 O 型圈有问题,但成功发射太多次,大家都麻了。AI 安全领域正在经历同样的“风险正常化”。
第三个:Conformance suite 可能是下一个基础设施。
Simon 发现,现在的编程 Agent 在有测试套件可跑的情况下效果惊人——给它一套现成的规范测试,它能自动迭代直到全部通过。他建议:如果你明年要推新协议、新语言、新框架,一定要配一套语言无关的测试集。这可能是 AI 时代新技术获得采用的关键。
【最后】
Simon 在文章里提了一句:他今年用手机写的代码比电脑还多。在 Claude Opus 4.5 和异步 Agent 的加持下,他在 iPhone 上完成了一个 C 到 Python 的库移植项目。
特别认同 Simon 的一句话:
“你的工作是交付经过验证可用的代码”。不管是你自己敲的,还是 AI 帮你生成的。
点击图片查看原图