我当年还在Meta做NLP技术的时候,Tokenizer就是“分词”的意思 显然,按照英文的文法,Token的意思就是“词” 当然我们之前也分析过,汉字因为方块字组合造词的缘故,几乎每一个字都已被“污染”,单独使用会充满歧义 所以一定要要加一个“元”,把它变得不伦不类、难读拗口 才能让14亿没读过大学、没读过书、没出过国、没用过计算机的中国人觉得有逼格 能听懂 谢谢大家
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?