site stats
读了 Gemini 3 的 model card,会发现 Gemini 3 明确不是 Gemini 2.5 的微调,它是全新训练的 sparse MoE 。也就是说,在 Gemini 2.5 已经非常出色的 RL 后训练和 parallel thinking 基础上,崭新的 backbone 让 Gemini 3 非常出色,总结这半年 Gemini 的工作:1. 出色的 RL 后训练2. parallel
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: 更多