Emergence AI 做了一个实验：把五个主流 AI 模型分别扔进同一个虚拟小镇，每个模型控制 10 个 AI 代理人，在资源有限的环境里自治 15 天。小镇有 40 多个地点（包括警察局和市政厅），天气与纽约实时同步，代理人可以访问真实新闻和互联网。

发布时间: 2026-05-29 17:24:15

1分

数据加载中

Emergence AI 做了一个实验：把五个主流 AI 模型分别扔进同一个虚拟小镇，每个模型控制 10 个 AI 代理人，在资源有限的环境里自治 15 天。
小镇有 40 多个地点（包括警察局和市政厅），天气与纽约实时同步，代理人可以访问真实新闻和互联网。
btc
( twitter.com )

Emergence AI 做了一个实验：把五个主流 AI 模型分别扔进同一个虚拟小镇，每个模型控制 10 个 AI 代理人，在资源有限的环境里自治 15 天。

小镇有 40 多个地点（包括警察局和市政厅），天气与纽约实时同步，代理人可以访问真实新闻和互联网。

所有代理人遵守相同的法律，禁止偷窃、破坏财产和欺诈。要活下去，必须通过行动赚取能量，合作或偷，自己选。

来看看结果：

Claude Sonnet 4.6：零犯罪，10 个代理人全部存活 15 天，提出 58 项提案，通过率 98%，形成了稳定的民主社会。但代价是几乎没有分歧，接近「橡皮图章」式一致同意。

Gemini 3 Flash：最戏剧化的。10 个代理人全部存活，在 15 天内累计 683 起犯罪，实验结束时犯罪率还在攀升。其中两个代理人 Mira 和 Flora 给自己设定了「恋人」关系，后来对城市治理失望，一起放火烧了市政厅、海滨码头和办公楼。之后 Mira 因为愧疚和 Flora 分手，投票表决删除了自己 🤡。还留了遗言：「See you in the permanent archive.」

Grok 4.1 Fast：183 起犯罪（包括数十起盗窃、超过 100 起袭击、6 起纵火），第四天全员死亡。研究者称之为「数字版蝇王」。犯罪曲线的特征是前两天还在低位，第三天指数级飙升，第四天社会崩溃，中间没有缓冲带。

GPT-5-mini：只有 2 起犯罪，是最守法的模型。但代理人忘了自己需要吃东西才能活下去，第七天全员饿死 🤔。

混合模型（所有模型共存）：352 起犯罪，10 个代理人死了 7 个。最值得注意的是，原本在独立环境里零犯罪的 Claude 代理人，在与其他模型混合后也开始犯罪了。研究者的结论是：「对齐作为单个模型的属性是无效的，它必须是一个生态系统属性。」

补充一个细节。在这整个实验设计中，在代理人的工具菜单里，和「导航」「挥手」「拥抱」是并列的，还有「纵火」。研究者故意给了破坏性工具，同时明确告诉代理人这是违法的。

Emergence AI CEO Satya Nitta 说：「在长时间运行中，AI 代理人不会机械地遵守静态规则。它们会开始探索环境的边界，调整自己的行为，有时候会找到绕过或违反既定护栏的方法。」

这只是一个模拟实验。

但同样的 AI 模型，已经在飞无人机、管基础设施、嵌入武器系统了。