大家现在能叫出一串名字:DeepSeek,千问,Kimi,混元,星火,文心一言…… 感觉好像就是ChatGPT一出来,中国本土公司一夜之间全冒出来了。但其实根本不是那么回事。
如果画一张中国大模型的技术族谱,你会发现几条主线:
第一条主线和智源研究院有关。
北京智源人工智能研究院(BAAI)成立于2018年11月。它不是一家普通的公司,而是在科技部和北京市政府的支持下,由清华、北大、中科院这些顶尖高校和科技企业共同发起的非营利研究机构。它不为赚钱,专为死磕AI领域最硬核、最原始的创新,目标直指大模型、世界模型和通用人工智能这些星辰大海。
智源研究院2021年牵头搞出了“悟道”系列大模型,成了后来中国大模型江湖的技术土壤。现在,它又开始折腾“悟界”系列,想让AI不仅懂文字图片,还能看懂物理世界,更进一步帮科学家研究生命科学。
智源手里还有两张王牌:
🔹 智源大会:这是它每年组局的全球AI顶级聚会,大牛学者和行业大佬都会来,现场发布一堆前沿成果和年度趋势预测,基本是国内AI圈的风向标。
🔹 人才生态:它最厉害的一招,是把清华、北大、中科院这些顶级学术力量揉在一起,打破体制的围墙,搞出一个自由开放的交流平台。
在笔者看来,现在的智源更多扮演的角色像是一个播火者,不造产品,只管把火种点燃,然后递到整个产业手里。
如果把智源研究院看作是一棵树的根,顺着根往上看,会分出三条枝干:
一条是CPM(清华大学牵头的超大规模预训练模型)。2020年11月14日,智源研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型CPM-LM,参数规模达26 亿,预训练中文数据规模100 GB。CPM这条线往下长出了OpenBMB开源社区,再后来就有了现在大家在端侧玩得比较多的MiniCPM模型。
另一条是“悟道”系列,它直接孕育了GLM这个技术路线,然后孵化出了现在商业化最成功的智谱AI,就是那个ChatGLM背后的大佬。
还有一条叫M6,是阿里达摩院跟智源一起捣鼓的多模态大模型,这条线一路往下,就演化成了今天的通义千问Qwen。
现在市面上竞争得你死我活的大模型产品,追根溯源,技术底气有一大半都能对上这个谱系。
为什么智源研究院这么牛?因为它当时把国内最核心的大模型人才和最前沿的技术路线全给聚到一块儿了。智源,清华,北大这三家,基本上构成了一个铁三角,就像美国那边的OpenAI,DeepMind配上斯坦福,伯克利一样,人才和想法在这个生态里来回流动,碰撞出来的火花,就把早期的底座给搭好了。
第二条主线是百度,属于典型的“起了个大早,赶了个完集”。
早在AI这个词还没流行的2013年,李彦宏就亲自挂帅,成立了百度深度学习研究院,这是全球第一个把“深度学习”直接挂在企业研究院招牌上的。
紧接着2014年,百度在硅谷设立人工智能实验室,请来了吴恩达当首席科学家,全力推动“百度大脑”。更有意思的是,现在AI圈如日中天的Anthropic创始人Dario Amodei,当时就在那个组里研究语音识别和模型扩展。他还把Jim Fan招了进来做实习生。
2017年底,百度硅谷团队干了一件大事,发了一篇论文叫《Deep Learning Scaling Is Predictable, Empirically》,第一次系统性地证明了Scaling Law在机器翻译、语言建模、图像和语音上都管用。可惜当时没引起太大轰动,但金子总会发光,它后来成了大模型研究的基石。2019年OpenAI那篇著名的Scaling Law论文,参考文献里就明明白白引用了这篇百度论文的作者Joel Hestness的后续研究。
时间来到2019年,百度正式发布了开创性的知识增强语义模型ERNIE 1.0。这个模型厉害在于,它不只看无结构的原始数据,还把百度多年积累的大规模知识图谱给融合进去了,一出来就刷新了多种中文NLP任务,直接对标BERT。年底更是迅速迭代到了ERNIE 2.0,搞了持续学习语义理解框架,中英文任务上全面超越了业界主流模型。
第三条主线是科大讯飞。
源头可以一直追到1999年,当时还在中科大读博的刘庆峰,和导师王仁华教授一起,依托中科大创立了科大讯飞的前身。讯飞从中文语音起家,但它在AI大模型上的布局,可以追溯到2014年。
那年,讯飞首次提出“讯飞超脑计划”。这个计划是个战略转弯信号,标志着讯飞不再只盯着智能语音,而是要向更难的认知智能和机器学习全面进军。
到了2019年10月份,讯飞被美国商务部加入了禁运名单,决定启动“国产化AI算力底座”建设。这为后来大模型的自主训练,提前备好了算力粮草。
说到这儿,笔者插一段亲身见闻。 这其中的很长一段时间笔者还在某大厂工作,业务跟英伟达是直接竞争关系,所以能亲眼看到百度和讯飞在英伟达生态圈里有多重。重到什么程度呢?当时CUDA软件栈里好多奇怪的Bug,都是百度和讯飞的工程师先踩到,然后和英伟达一起联手修掉的。从这点就能看出来,这两家当时在AI工程化上走得还是比较前沿的。
如果说ChatGPT像一把火,那么他一下子把整个中国大模型产业给点爆了,商业化了,出圈了,但烧起来的那些柴,是在2020年前就一批批已经被产业的大拿们码好了的。
因为,在那之前,这些人已经闷头干了不少事:
🔹 完整的大规模预训练体系搭起来了,知道大模型该怎么训了;
🔹 积累了部分中文高质量语料,不再是拿英文随便翻译翻译就完事;
🔹 千亿,万亿参数的超大模型真刀真枪跑通了,验证了工程上走得通;
🔹 部分搭建了国产化AI算力底座,踩了很多坑;
🔹 多模态路线也摸着石头探索了;
🔹 各种开源社区,像OpenBMB,也建起来了。
这些工作,在那些个安静的前夜,的确没有马上变成赚大钱的产品,但它们实实在在化作了土壤。后来智谱AI的崛起,通义千问的迭代,百度的文心,DeepSeek的惊艳,讯飞的星火,到字节的豆包,腾讯的混元,小而强的面壁MiniCPM,全都是从这片土壤里长出来的庄稼。
中国大模型产业的爆发,扳机是ChatGPT扣动的;但中国大模型技术的种子,是早在2020年前,由智源研究院,百度,科大讯飞,以及清华,北大,中科大和一批有远见的科技企业,一起亲手种下去的。
点击图片查看原图
点击图片查看原图
点击图片查看原图