机器人公司找到了一种收集训练数据的廉价方案:给印度工厂工人戴上头戴摄像头,把他们每天的操作过程全程录下来。
大语言模型可以从互联网上海量的文本中学习,机器人不行。机器人需要的是具身数据(embodied data),也就是真实世界里手怎么伸、腕怎么转、东西滑落了怎么接、布料怎么折叠、工具卡住了怎么处理。这些数据极度稀缺,因为现实世界又慢又乱又贵。
自建机器人车队来采集?买得起养不起,还危险。用远程操控让人类引导机器人动作?每分钟都在烧硬件、操作员和校准成本。所以公司们退而求其次,去找最便宜的替代方案。
工人的第一人称视频当然不等于机器人的动作数据,但它能捕捉到操作顺序、身体姿态、双手配合,以及那些让熟练工作看起来毫不费力的微调整。这些信息对训练模型仍然有价值。
换个角度看,机器人领域真正的前沿竞争,可能就是看谁能更高效地采集现实的数据。仓库、工厂、厨房、维修台,这些地方之所以重要,是因为它们是人类与物理世界反复接触的高密度场景,恰好是机器人最缺的东西。
工人的劳动被用了两次,第一次是干活本身,第二次是变成训练数据。而在具身数据的采集成本降下来之前,机器人会一直先向工人学习,然后再考虑取代他们。