吴恩达老师新年第一条推文没有预测“今年 AI 会有多厉害”,反而问:“我们到底怎么判断 AGI 来没来?” 甚至还提出了一个新的检验标准叫“图灵-AGI 测试”。
规则很简单。给 AI(或者一个人类)一台能上网的电脑,可以用浏览器、可以开 Zoom。然后由评委设计一个连续多天的工作任务,比如先接受客服培训,然后真的去接客户电话,中间还有人给反馈。这就是一个远程员工日常会经历的事情。
如果 AI 能做得和一个熟练的人类员工一样好,那就算通过了。
经典的图灵测试要求是让 AI 通过文字聊天骗过人类评委,让评委分不清对面是人还是机器。听起来很有道理,但实际操作下来,Loebner Prize 竞赛发现了一个尴尬的结果:想骗过评委,最有效的不是展示智能,而是模拟人类的打字错误。你故意打几个错别字、犹豫一下再回复,评委反而觉得你更像人。
现在流行的其他各种 benchmark,什么 GPQA、AIME、SWE-bench,这些测试的问题在于,测试集是公开的。AI 团队会针对这些测试集做优化,或者说刷题。刷高分不代表真的有通用能力,只能说明在这一小块领域做得不错。就像一个学生每年都刷同一套模拟题,考试成绩很好,但换个题型可能就不行了。
“图灵-AGI 测试”至少抓住了一个关键:普通人心目中的 AGI 是什么样的?不就是能替我干活的 AI吗?一个真正的通用人工智能,总不能连一份远程工作都干不了吧?
问题是 AI 真要能通过这测试了,感觉我可以去申请远程岗位让 AI 帮我干活我自己领工资了😂
点击图片查看原图
点击图片查看原图
点击图片查看原图
点击图片查看原图