site stats
#分享 从 DeepSeek R1 了解推理模型的训练的四种方法 1. Inference-time scaling 在推理过程中增加计算资源以提高输出质量。一个经典的例子,就是 CoT,在 Prompt 中包含类似 `Think step by step` 的短语,它通过输出更多的 token 增加了计算资源。 2. 纯 RL DeepSeek-R1-Zero
sign_in_with_google sign_in_with_google

3323 位用户此时在线

24小时点击排行 Top 10:
  1. 本站自动实时分享网络热点
  2. 24小时实时更新
  3. 所有言论不代表本站态度
  4. 欢迎对信息踊跃评论评分
  5. 评分越高,信息越新,排列越靠前