吴恩达老师新年第一条推文没有预测“今年 AI 会有多厉害”，反而问：“我们到底怎么判断 AGI 来没来？” 甚至还提出了一个新的检验标准叫“图灵-AGI 测试”。规则很简单。给 AI（或者一个人类）一台能上网的电脑，可以用浏览器、可以开

发布时间: 2026-01-07 10:01:01

1分

数据加载中

吴恩达老师新年第一条推文没有预测“今年 AI 会有多厉害”，反而问：“我们到底怎么判断 AGI 来没来？” 甚至还提出了一个新的检验标准叫“图灵-AGI 测试”。
规则很简单。给 AI（或者一个人类）一台能上网的电脑，可以用浏览器、可以开
IT技术
( twitter.com )

吴恩达老师新年第一条推文没有预测“今年 AI 会有多厉害”，反而问：“我们到底怎么判断 AGI 来没来？” 甚至还提出了一个新的检验标准叫“图灵-AGI 测试”。

规则很简单。给 AI（或者一个人类）一台能上网的电脑，可以用浏览器、可以开 Zoom。然后由评委设计一个连续多天的工作任务，比如先接受客服培训，然后真的去接客户电话，中间还有人给反馈。这就是一个远程员工日常会经历的事情。

如果 AI 能做得和一个熟练的人类员工一样好，那就算通过了。

经典的图灵测试要求是让 AI 通过文字聊天骗过人类评委，让评委分不清对面是人还是机器。听起来很有道理，但实际操作下来，Loebner Prize 竞赛发现了一个尴尬的结果：想骗过评委，最有效的不是展示智能，而是模拟人类的打字错误。你故意打几个错别字、犹豫一下再回复，评委反而觉得你更像人。

现在流行的其他各种 benchmark，什么 GPQA、AIME、SWE-bench，这些测试的问题在于，测试集是公开的。AI 团队会针对这些测试集做优化，或者说刷题。刷高分不代表真的有通用能力，只能说明在这一小块领域做得不错。就像一个学生每年都刷同一套模拟题，考试成绩很好，但换个题型可能就不行了。

“图灵-AGI 测试”至少抓住了一个关键：普通人心目中的 AGI 是什么样的？不就是能替我干活的 AI吗？一个真正的通用人工智能，总不能连一份远程工作都干不了吧？

问题是 AI 真要能通过这测试了，感觉我可以去申请远程岗位让 AI 帮我干活我自己领工资了😂

点击图片查看原图