训练机器人的印度街头数据工

班加罗尔午后，一个外卖骑手在路口急刹。他头盔上多了一枚黑色摄像头——不是送餐平台的考核设备，而是Human Archive的“传感器工牌”。这家斯坦福和伯克利出身的初创公司，正用印度零工工人每天的穿行、推门、避让，喂养硅谷的机器人模型。

算法需要知道“人如何走路”“门怎么推开”。最便宜的办法不是建仿真环境，是让一个不知道自己在做什么的人，在街头重复它。

山东菏泽的数据标注基地里，数千名标注员每天框选几万张图片，月薪三千元。那是上一代AI训练数据的主流形式：静态、可外包、依赖廉价劳动力。但Human Archive的玩法不一样——需求已经从“分类”转向“具身”。

机器人需要知道人怎么侧身挤过一道门，手怎么握杯把儿，脚在不同路面上的摩擦系数。这些数据无法从互联网图片获取，必须通过传感器在真实物理世界中采集。Human Archive给印度零工戴上的摄像头和惯性测量单元，每小时生成数

GB的高维运动数据。多家机器人实验室公开的招聘信息显示，“物理交互数据”的采购单价已达每帧0.5到2美元——远高于传统标注的每张图片几分钱。成本结构倒挂：算法越聪明，数据采集越贵。

班加罗尔的雨夜，骑手苏雷什同时接了两套任务。一套来自Zomato送餐系统，要求他30分钟内送达；另一套来自Human Archive的App，要求他“保持头盔摄像头持续录制，不要遮挡”。前者的薪酬按单结算，后者每周支付约1500卢比（约18美元），相当于他日均收入的四分之一。

Human Archive的合同写明：工人只负责“佩戴设备”，不拥有录制数据的所有权，且“无法知晓最终训练何种模型”。苏雷什可能正在帮一家美国仓储机器人公司训练拣货算法——那家公司的自动化设备，未来会取代他的送餐工作。这种不知情下的数据劳动，和早期内容审核员“只看到删帖指令、不知道审核标准”一模一样。印度电子信息技术部2023年的一份白皮书警告：全印约200万零工工人直接或间接参与AI数据相关工作，近八成不清楚自己的数据被谁使用、用于什么目的。

把Human Archive放进全球版图里看，它复刻了一条熟悉的路径：硅谷设计算法与标准，中国提供规模化制造与标注，印度等地区供应原始行为数据——就像过去富士康在郑州组装iPhone，只不过这次“组装”的是人类行动轨迹。

差别在于，数据采集的产权更模糊。一台iPhone出厂时谁制造的清清楚楚，而一名印度骑手的步伐数据，经过清洗、标注、训练后嵌入波士顿动力Atlas机器人的步态控制算法，没有任何来源印记。2024年3月，Human Archive官网更新了“合作案例”页面，展示一段机器人开门视频，底部小字写着“部分训练数据来源于合作项目”——没有提及班加罗尔，没有提及工人姓名。

将来某天你在仓库里看到机器人精准避让货架、缓缓推开一扇门时，那个优雅的动作里，藏着多少陌生人的急刹、闪躲和无意识的重复？谁该为构成其“常识”的肉身劳动付费？

菜单

训练机器人的印度街头数据工

评论