晚上刷到余承东在华为发布会上说盘古是国内第一个大模型,我还真去翻了一下时间线。
PanGu-α 论文是 2021 年 4 月 26 日发的,标题和摘要里已经写了 Large-scale Pretrained Language Models,最高 200B 参数,而百度的 ERNIE 3.0 是 2021 年 7 月 5 日,时间上确实晚了一步。
当然,放到全球看,GPT-3 早在 2020 年就已经把 175B 参数和 few-shot/in-context learning 打出来了,所以「全球都不知道大模型」更像是老余发布会惯用的夸张表达。
但如果只看国内早期中文大模型路线,盘古这波确实有资格说自己起得很早。
发布会上老余宣布 openPangu 2.0 要从 6 月 30 日起陆续开源,最高 505B 总参数、512K 上下文。
老余这次把盘古大模型又重新推到台前,真正的悬念已经变成:当年的「早」,这次能不能变成今天的「强」。
点击图片查看原图