Emergence AI 做了一个实验:把五个主流 AI 模型分别扔进同一个虚拟小镇,每个模型控制 10 个 AI 代理人,在资源有限的环境里自治 15 天。
小镇有 40 多个地点(包括警察局和市政厅),天气与纽约实时同步,代理人可以访问真实新闻和互联网。
所有代理人遵守相同的法律,禁止偷窃、破坏财产和欺诈。要活下去,必须通过行动赚取能量,合作或偷,自己选。
来看看结果:
Claude Sonnet 4.6:零犯罪,10 个代理人全部存活 15 天,提出 58 项提案,通过率 98%,形成了稳定的民主社会。但代价是几乎没有分歧,接近「橡皮图章」式一致同意。
Gemini 3 Flash:最戏剧化的。10 个代理人全部存活,在 15 天内累计 683 起犯罪,实验结束时犯罪率还在攀升。其中两个代理人 Mira 和 Flora 给自己设定了「恋人」关系,后来对城市治理失望,一起放火烧了市政厅、海滨码头和办公楼。之后 Mira 因为愧疚和 Flora 分手,投票表决删除了自己 🤡。还留了遗言:「See you in the permanent archive.」
Grok 4.1 Fast:183 起犯罪(包括数十起盗窃、超过 100 起袭击、6 起纵火),第四天全员死亡。研究者称之为「数字版蝇王」。犯罪曲线的特征是前两天还在低位,第三天指数级飙升,第四天社会崩溃,中间没有缓冲带。
GPT-5-mini:只有 2 起犯罪,是最守法的模型。但代理人忘了自己需要吃东西才能活下去,第七天全员饿死 🤔。
混合模型(所有模型共存):352 起犯罪,10 个代理人死了 7 个。最值得注意的是,原本在独立环境里零犯罪的 Claude 代理人,在与其他模型混合后也开始犯罪了。研究者的结论是:「对齐作为单个模型的属性是无效的,它必须是一个生态系统属性。」
补充一个细节。在这整个实验设计中,在代理人的工具菜单里,和「导航」「挥手」「拥抱」是并列的,还有「纵火」。研究者故意给了破坏性工具,同时明确告诉代理人这是违法的。
Emergence AI CEO Satya Nitta 说:「在长时间运行中,AI 代理人不会机械地遵守静态规则。它们会开始探索环境的边界,调整自己的行为,有时候会找到绕过或违反既定护栏的方法。」
这只是一个模拟实验。
但同样的 AI 模型,已经在飞无人机、管基础设施、嵌入武器系统了。
点击图片查看原图