OpenAI 12 天 的 第 2 天,强化微调,通过少量数据,让模型在专业领域到达专家水平。 跟之前的微调不一样,它不是通过把数据记住答案,而是在微调的过程中训练自己在某个领域的推理能力找到正确答案,有点像给 AI 一本棋谱,让它自己训练自己下棋。 这种微调有两个不同数据集合,一个是微调数据集,一个是测试数据集合,模型先基于微调数据集合去训练,然后用测试数据集合验证,反复自我推理训练验证,最终达到很高的水平。
点击图片查看原图
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?