最近又密集做了一波应用,换了很多模型,感受:国内模型相比于顶尖国外模型还有差距,尤其是在真实生产环境(包括RAG、Agent、数据合成等应用中):
- 最好的推理模型o1
- 最好的代码模型claude sonet
- 最好的多模态输入模型 gemini flash 2.0
- 生产上性价比最高的模型,现在是gpt-4o-mini(想不到吧,其实4o-mini是3.5-turbo平替,价格很舒服),以后我估计是gemini flash 2.0(目前还没有公布价格)。
- 最强开源模型我认为是 qwen 2.5 72B,至少中英文如此,但是还有差距。而国内一线top 模型也就qwen 72B水平左右,包括阿里自家的qwen-max。
国内的基础模型、高性价比模型、推理模型都需要进一步训练和发展。