这个实在太有趣了,忍不住让AI重写了一篇文章。
破案了!AI 疯狂喜欢用破折号的真相竟然是⋯
AI写的文章,总透着一股“AI味儿”。
最明显的一个特征之一,尤其英文写作中,特别爱用破折号。
讲真,AI模型(尤其是GPT-4之后的版本)对破折号的滥用,已经到了让人发指的地步。
更逗的是,你还很难通过提示词(Prompt)去“纠正”它。
有网友在OpenAI的论坛上发帖,说他试了各种方法,比如“请不要使用破折号”、“请用更简洁的标点”,结果模型“好的,我明白了”,然后转头该用还是用。
这事儿就透着一股诡异。
按理说,AI就是个“复读机”,它的一切行为都应该来自它的训练数据。
但为什么偏偏是破折号——这个在现代英语里并不算最高频的标点——成了AI的“心头好”呢?
有意思的是,关于这个问题,业内目前居然没有一个公认的、确定的答案。
今天,咱们就来当一回侦探,结合一篇挺有意思的分析文章(来自Sean Goedecke),一起来扒一扒,AI这个“写作怪癖”到底是怎么来的。
几种“不太靠谱”的猜测
在揭晓那个最可能的答案之前,咱们先得“排雷”,把几个流传很广、但细想又站不住脚的理论给干掉。
猜测一:训练数据里本来就很多?
这是最直观的猜测:AI爱用,是不是因为它“学习”的材料——也就是整个互联网的英文文本里,破折号本来就用得很多?
这个解释,我第一个就不太信。
你想啊,如果破折号在人类写作中也这么普遍,那它就不应该成为一个扎眼的“槽点”,对吧?
我们之所以会觉得“AI味儿”冲,恰恰是因为我们凭直觉感知到,AI使用破折号的频率 远高于正常人类的平均水平。
如果AI用逗号的频率很高,你会在意吗?不会,因为我们也都这么用。
所以,这个解释直接回避了核心问题:为什么AI会“偏爱”它?
猜测二:破折号“功能万金油”,AI“偷懒”?
还有一种理论,听起来有点“拟人化”。
说的是,AI在吭哧吭哧预测下一个词(Token)的时候,它其实也很“纠结”。
用破折号,就像是给自己留了个“后门”。
你想啊,一个破折号——它既可以引出补充说明,也可以开启一个全新的观点,甚至可以表示转折。
所以,AI是不是“算计”过了,觉得扔出一个破折号最“安全”,最“万金油”,能让后面的句子怎么接都行?
这个我也不太信。
首先,其他标点(比如逗号、分号)在很多语境下也同样灵活。
其次,我总觉得用“偷懒”或“留后路”这种人类的思维方式,去套大语言模型的工作原理,有点……想当然了。模型只是在“预测下一个最可能的Token”,它并没有“耍滑头”的主观意识。
猜测三:为了“省钱”(Token效率)?
这个说法稍微技术一点,但也最容易被驳倒。
它扯到了一个概念,叫 Token效率。
简单科普一下:大语言模型处理文本,不是一个词一个词处理的,而是把词打碎成一个个“Token”(标记)。
比如 "unbelievable" 可能会被拆成 "un"、"believe"、"able" 三个Token。
AI的计算成本和它处理的Token数量直接相关。
这个理论是说,AI是不是发现,用一个破折号(占1个Token),可以替代掉一堆啰嗦的连接词(比如 ",therefore," 或 "which means" 这种可能占2-3个Token的短语)?
用破折号,能“省钱”啊!
Emmm……这个解释还是不太对劲。
第一,在绝大多数情况下,那个破折号明明可以被一个逗号(同样只占1个Token)完美替换。
比如AI常写的:"It's not X — it's Y."
这完全可以写成:"It's not X, it's Y."
谁也没比谁更省Token啊。
第二,你真觉得GPT-4o这种“庞然大物”,会在标点符号上搞这种“微操”来优化成本吗?
它要是真想省Token,少说点那些翻来覆去的“车轱辘话”(waffle less)不就完了吗?那省下的Token才叫多。
所以,上面这三个“主流”猜测,基本都被排除了。
那“真凶”到底是谁?
深入扒一扒:会不会是RLHF的“锅”?
讲到这儿,咱们就得聊点更深的东西了,一个在AI圈大名鼎鼎的词:RLHF。
全称叫 Reinforcement Learning with Human Feedback(基于人类反馈的强化学习)。
这是啥玩意儿?
你可以把它粗暴地想象成AI的“岗前培训”和“绩效考核”阶段。
在模型(比如GPT-4)基本训练好之后,AI公司会雇佣成百上千的人类“标注员”(Raters),让他们去跟AI聊天,然后给AI的回答打分。
“这个回答太啰嗦了,差评!”
“这个回答很友好,帮我解决了问题,好评!”
模型会根据这些人类的“好评”和“差评”,不断“反思”、“修正”自己的说话方式,让自己变得更“有用”、更“讨人喜欢”。
好,问题来了。
AI公司为了节省成本,肯定会把这种“打分”的工作外包出去。外包给谁呢?
答案是:那些生活成本较低,但又有大量英语流利人口的国家。
比如,OpenAI的主要RLHF团队,就设在非洲的肯尼亚和尼日利亚。
这就带来一个非常有意思的后果:
AI的“品味”,在很大程度上被这些非洲标注员的“英语方言”给塑造了。
一个最有名的例子,就是“delve”(深入研究)这个词。
你发现没?GPT-4特别爱用"delve"、"explore"(探索)、"tapestry"(挂毯,引申为“蓝图”或“画卷”)这类听起来有点“拽文”的花哨词汇。
这就是因为,在非洲英语(作为后殖民地国家的英语变体)中,使用这种稍微华丽的词汇被视为“有文化”和“语言能力强”的体现。
于是,肯尼亚的标注员们看到模型用了"delve",大喜:“哇,这个词用得好,地道!高分!”
结果,模型就get到了:哦,人类喜欢我用“delve”,那我以后就多用!
(这事儿还引发过一场大讨论,保罗·格雷厄姆曾吐槽过这个词,结果被很多印度和尼日利亚的学者给“教育”了,说他不懂文化差异。)
破折号,也是“非洲英语”的锅吗?
那问题来了:会不会破折号也是同样的情况?
是不是在尼日利亚英语里,大家平时说话就特爱用破折号,所以标注员们也更喜欢带破折号的回答?
这个猜测,简直太完美了,对吧?它解释了为什么“delve”和“破折号”会一起出现。
然而,原作者Sean Goedecke是个较真的人,他真的跑去查数据了。
他找到了一个“尼日利亚英语文本”的数据集,然后跑程序统计了里面破折号的出现频率。
结果你猜怎么着?
数据啪啪打脸。
数据显示,在那份尼日利亚英语数据集中,破折号的频率(占所有单词的比例)大约是 0.022%。
而一篇关于英语标点符号历史的论文指出,在当代通用英语文本中,破折号的频率波动范围在 0.25% 到 0.275% 之间。
看明白了吗?
尼日利亚英语(作为非洲英语的代表)使用破折号的频率,不仅不高,反而比通用英语 低得多!
所以,这条线索也断了。
“delve”的锅,RLHF和非洲标注员可能得背;但“破折号”的锅,还真甩不到他们身上。
真正的“嫌疑人”:19世纪的老书
好了,排除了这么多,我跟你说,下面这个解释,是我目前看到最靠谱、也最令人信服的。
它来自一个非常关键的观察:
你发现一个“华点”了吗?GPT-3.5 根本不怎么爱用破折号!
这个“怪癖”,是从GPT-4(以及GPT-4o)才开始集中爆发的。
包括Anthropic的Claude和Google的Gemini,也都有这个毛病。
这就把时间锁定在了2022年底(GPT-3.5发布)到2024年初(GPT-4o发布)这短短的一年多时间里。
从2022年到2024年,到底发生了什么?
答案只有一个:
训练数据的构成,发生了根本性的变化。
你想啊,2022年那会儿,OpenAI他们训练模型,用的数据主要是从互联网上抓取的公开文本(比如维基百科、Reddit帖子、新闻网站),再加上从LibGen、Z-Library这类网站“搞”来的海量盗版电子书。
但是,当大模型的能力在2023年震惊世界后,所有的AI公司都疯了。
他们立刻意识到,高质量的训练数据,就是未来的“石油”和“黄金”。
互联网上的“垃圾”已经喂不饱新一代的模型了。他们需要更多、更优质、更干净的文本。
他们把目光投向了哪里?
实体书。
AI公司们(OpenAI、Anthropic、Google等)开始了一场疯狂的“数据军备竞赛”,他们不惜重金,开始大规模地扫描、数字化人类历史上所有的纸质出版物。
(Anthropic的法庭文件就披露了,他们从2024年2月开始搞这个事。OpenAI虽然没明说,但业内普遍认为他们干得更早、更猛。)
好,关键的连接点来了。
这些新扫描的实体书,和以前LibGen上的盗版书,有啥核心区别?
区别就在于——年代。
盗版电子书网站上的内容,大多偏向于当代文学和流行读物(比如《哈利·波特》、各种畅销小说和现代教材),因为这是网民们真正想下载和阅读的。
而AI公司要去“抢救”数据,肯定会把人类历史上所有能弄到的书都扫一遍,尤其是那些早已进入“公有领域”(Public Domain)的旧书。
这些书,大多是什么年代的?
19世纪末,和20世纪初。
现在,让我们回到前面提到的那篇“标点符号历史研究论文”。
它里面有一个惊人的发现:
在英语写作中,破折号的使用率,恰恰在1860年左右达到了历史巅峰(约0.35%)
之后才慢慢回落,到1950年代后才稳定在0.25%-0.275%的水平。
你再品品:19世纪末和20世纪初的文学作品(比如狄更斯、梅尔维尔),他们使用破折号的频率,比当代英语高出了近30%!
举个栗子,著名的《白鲸记》(Moby-Dick)一本书里,统计下来居然有 1728个 破折号!
真相大白了,不是吗?
这可能是最合理的解释:
AI模型之所以疯狂使用破折号,不是因为它“聪明”地选择了什么万金油标点,也不是因为非洲标注员的偏爱。
仅仅是因为,在2023年这场“数据军备竞赛”中,它被强行“喂”下(预训练)了海量的、来自19世纪和20世纪初的“高质量”老书。
而那些书里——就TMD全都是破折号!
这个“写作习惯”,就像一种古老的“语法DNA”,被深深地刻进了模型的神经网络里。
总结,和几个没想通的“小疙瘩”
好,咱们来捋一捋这个“破案”思路:
- 结构性解释(省Token、万金油):不太可能。GPT-3.5没这个问题,而且有反例(逗号)。
 
- RLHF解释(标注员偏好):不太可能。非洲英语数据反驳了方言理论。
 
- 训练数据解释(老书污染):可能性最大。
它完美解释了为什么是从GPT-4开始爆发的(因为数据构成变了),也解释了为什么AI的用量会 高于 当代人类的平均水平(因为它的“教材”比我们的老)。
我个人(和原作者一样)最倾向于第三种:训练数据(特别是老书)的污染。
但是,这事儿还没完。
就算这个“老书理论”是真的,依然有几个“小疙瘩”,我还是没想通。
疙瘩一:《白鲸记》悖论
这是最大的一个困惑:
如果AI真的“饱读”了19世纪经典,为啥它写的东西读起来一点也不像《白鲸记》或《双城记》?
它只是“偷”了人家的标点符号,却没学会人家那套华丽、繁复、古老的文风?
这个问题,我倒有个自己的猜想。
这可能正是我前面说的“分层训练”导致的一个“缝合怪”结果。
你可以这么想象:
 
- “预训练”阶段(Pre-training): AI像个婴儿,被关在小黑屋里,强行“吞”下了《白鲸记》在内的数万亿Token。它在这个阶段学会了语法、词汇、事实,也顺便学会了“破折号”这个深入骨髓的“口头禅”。它此时的“灵魂”是19世纪的。
 
- “微调”阶段(SFT & RLHF):AI长大了,被放出来“岗前培训”。
成千上万的21世纪标注员(包括那些肯尼亚人)开始“掰”它的说话方式,强迫它用21世纪的、礼貌的、友好的、客服式的“当代风格”说话。(比如“我很高兴为你服务”、“作为一个大语言模型……”)
所以,你最终看到了一个“人格分裂”的AI:
它拥有一个“19世纪的语法之魂”(所以爱用破折号),却被迫披上了一件“21世纪的客服外衣”(所以说话像个AI助手)。
这事儿是不是还挺赛博朋克的?
疙瘩二:RLHF真的“无辜”吗?
另一个可能,也许RLHF也不是完全“无辜”的。
虽然“非洲方言”理论被否了,但有没有一种可能:破折号本身,就是让文字读起来更“口语化”?
你想,咱们聊天时,不就是经常“呃……”、“那个——”、“我意思是——”这样吗?
破折号在功能上,确实能模拟这种“停顿”和“补充”。
也许,标注员们(无论他们在哪)只是单纯地觉得:“哇,这个回答用了破折号,显得不那么死板,更像在‘聊天’,我喜欢!高分!”
OpenAI的CEO萨姆·奥特曼(Sam Altman)好像也在一次采访里模糊地提过,他们“(有意)加了更多破折号,因为用户们喜欢这种风格”。
如果是这样,那它可能和“老书理论”是共同作用的:
老书(预训练)给了AI使用破折号的“能力”和“高概率”;而标注员(RLHF)则“强化”并“奖励”了这种能力,让它变本加厉。
尾声:Hacker News上的“插曲”
原作者的文章发出去后,在Hacker News(一个程序员的“豆瓣”)上火了。
评论区里又冒出来一个有意思的理论,来自Medium(一个博客平台)的CEO。
这位CEO说:
“都别猜了,我告诉你们为啥!因为Medium是高质量的训练数据源。而在Medium上,我们系统会自动把用户输入的两个连字符(--)转换成一个标准的破折号(—)。肯定是这个原因!”
这个解释,恕我直言,简直离谱。
他(和很多技术宅一样)完全搞错重点了!
咱们讨论的不是AI用了哪个特定字符(是—还是--),咱们讨论的是它为什么要去使用这个标点的“功能”。
也就是那种“打断-补充-转折”的语法功能!
就算AI的训练数据里,把很多“连字符”(hyphen,如 "state-of-the-art")因为OCR错误或自动转换,都识别成了“破折号”(em-dash)。
那也只会让模型学会“错误地”在“state-of-the-art”这种地方用破折号,并不会让它学会在句末用破折号来代替“因此”啊!
这完全是两码事。
所以,绕了一大圈,我个人还是最站“19世纪老书”这个理论。
这事儿最有意思的地方在于,我们发现,AI这个看似“智能”的庞然大物,它的行为模式,很多时候可能源自一些我们意想不到的、甚至有点“蠢”的原因。
一个小小的标点符号,就像一块“数字考古”的化石。
它藏着AI大模型“进化”的秘密。