Simon Willison 这位 Django 框架的核心开发者、LLM 领域最勤奋的独立博主，每年年底都会写一篇万字长文回顾 AI 这一年。今年是第三年。原文很长，我从他的年度总结中围绕1. 2025 年 AI 最关键的技术突破是什么？2. 哪些产品让你眼前一亮？3. 2026 年什么趋势不可忽视？

发布时间: 2026-01-01 14:20:14

1分

数据加载中

Simon Willison 这位 Django 框架的核心开发者、LLM 领域最勤奋的独立博主，每年年底都会写一篇万字长文回顾 AI 这一年。今年是第三年。
原文很长，我从他的年度总结中围绕
1. 2025 年 AI 最关键的技术突破是什么？
2. 哪些产品让你眼前一亮？
3. 2026 年什么趋势不可忽视？
IT技术
( simonwillison.net )

Simon Willison 这位 Django 框架的核心开发者、LLM 领域最勤奋的独立博主，每年年底都会写一篇万字长文回顾 AI 这一年。今年是第三年。

原文 https://t.co/WN0ufxZGGM 很长，我从他的年度总结中围绕
1. 2025 年 AI 最关键的技术突破是什么？
2. 哪些产品让你眼前一亮？
3. 2026 年什么趋势不可忽视？
这三个问题整理了部分内容。

【1】2025 最关键的突破：推理模型让 Agent 真正能干活了

年初 Simon 还在博客里预言“Agent 不会成功”——因为 LLM 太容易被骗了，你让它帮你干活，它可能被恶意指令带偏。

结果年底他的总结推翻了自己的语言，转折点是“推理模型”。OpenAI 的 o1、DeepSeek R1、后来各家跟进的各种“thinking”模型，让 AI 学会了“慢思考”。传统模型是看到问题就直接输出答案，推理模型会先在内部进行一连串的思考——分解问题、尝试方案、检查结果、调整方向，然后才给出答案。

通过让模型在数学和编程这类“可以自动验证对错”的任务上训练，模型自己学会了分步骤解决问题的策略。这看起来像“推理”，但本质上是训练出来的解题套路。

一个能推理的模型，配上能执行代码的沙盒，就变成了一个真正能干活的 Agent——它可以写代码、跑代码、看报错、再改代码，循环往复直到搞定。Simon 说，哪怕是最棘手的 bug，只要给一个好的推理模型足够的代码访问权限，它通常都能一路追溯到问题根源。

AI 搜索也因此从“玩具”变成了“真能用”。以前让 LLM 搜东西，结果经常驴唇不对马嘴。现在的 GPT-5 Thinking 或者 Google 的 AI Mode，可以像一个靠谱的研究助理一样帮你搜集资料、整理要点。

【2】眼前一亮的产品：编程 Agent 和消费级图片编辑

今年最炸裂的产品发布，发生在二月，而且低调到没有独立公告——Anthropic 把 Claude Code 的发布塞在了 Claude 3.7 Sonnet 的新闻稿第二段。

结果呢？到年底，这个命令行工具创造了 10 亿美元的年化收入。一个 CLI 工具，十亿美金。Simon 自己都感叹：早知道当初应该把自己的 LLM 命令行工具当主业搞。

各大厂随后疯狂跟进：OpenAI 出了 Codex CLI，Google 出了 Gemini CLI，Qwen 和 Mistral 也都下场。还有一类“异步编程 Agent”——Claude Code for Web、Codex Cloud、Google Jules——你扔个任务给它，它在云端默默干活，干完了给你提个 PR。Simon 说他现在经常在手机上随手发几个任务，几分钟后收 PR，很爽。

消费级的爆款是 ChatGPT 的图片编辑。三月上线，一周涨了一亿用户，峰值时一小时一百万注册。“吉卜力化”之类的玩法病毒式传播。图片编辑可能是目前 AI 触达普通人最成功的形态。

Google 的 Nano Banana 系列则走专业路线——它能生成带复杂文字的信息图、图表、演示材料，而且文字渲染准确。这对做内容、做汇报的人来说是真正的生产力。

【3】2026 不可忽视的趋势

第一个：中国开源模型已经占据榜首。

年底的开放权重模型排行榜，前五名全是中国公司——GLM、Kimi K2、MiMo、DeepSeek V3.2、MiniMax。DeepSeek R1 发布那天，NVIDIA 市值一天蒸发 6000 亿美元。投资人突然意识到：AI 可能不是美国独占的游戏。

第二个：安全问题的“挑战者号时刻”在逼近。

很多人用 YOLO 模式跑 Agent——不审核每一步操作，让它放飞自我。目前还没出大事，但安全研究者 Johann Rehberger 警告：这正是危险所在。1986 年挑战者号爆炸前，NASA 的工程师早就知道 O 型圈有问题，但成功发射太多次，大家都麻了。AI 安全领域正在经历同样的“风险正常化”。

第三个：Conformance suite 可能是下一个基础设施。

Simon 发现，现在的编程 Agent 在有测试套件可跑的情况下效果惊人——给它一套现成的规范测试，它能自动迭代直到全部通过。他建议：如果你明年要推新协议、新语言、新框架，一定要配一套语言无关的测试集。这可能是 AI 时代新技术获得采用的关键。

【最后】

Simon 在文章里提了一句：他今年用手机写的代码比电脑还多。在 Claude Opus 4.5 和异步 Agent 的加持下，他在 iPhone 上完成了一个 C 到 Python 的库移植项目。

特别认同 Simon 的一句话：
“你的工作是交付经过验证可用的代码”。不管是你自己敲的，还是 AI 帮你生成的。