为什么现在 AI 写前端一下子这么强了,小米的 MiMo 论文的这段介绍了他们如何训练模型写前端的,关键是这句: 我们的基于视觉的验证器通过对录制的视频片段执行情况进行评分,综合评估视觉质量、功能准确性和可执行性,从而确保奖励机制能够同时兼顾外观表现与行为效果。 原理上就是模型根据 prompt 写好代码后再用 Playwright 操作录制成视频,然后,交给一个视觉验证器(应该是一个专门训练的视频理解模型) 进行打分,以提供奖励信号。
点击图片查看原图
只需要几秒!
创建帐户
已拥有账号并想要登录?
登陆 忘记密码?