班加罗尔午后,一个外卖骑手在路口急刹。他头盔上多了一枚黑色摄像头——不是送餐平台的考核设备,而是Human Archive的“传感器工牌”。这家斯坦福和伯克利出身的初创公司,正用印度零工工人每天的穿行、推门、避让,喂养硅谷的机器人模型。
算法需要知道“人如何走路”“门怎么推开”。最便宜的办法不是建仿真环境,是让一个不知道自己在做什么的人,在街头重复它。
山东菏泽的数据标注基地里,数千名标注员每天框选几万张图片,月薪三千元。那是上一代AI训练数据的主流形式:静态、可外包、依赖廉价劳动力。但Human Archive的玩法不一样——需求已经从“分类”转向“具身”。
机器人需要知道人怎么侧身挤过一道门,手怎么握杯把儿,脚在不同路面上的摩擦系数。这些数据无法从互联网图片获取,必须通过传感器在真实物理世界中采集。Human Archive给印度零工戴上的摄像头和惯性测量单元,每小时生成数

GB的高维运动数据。多家机器人实验室公开的招聘信息显示,“物理交互数据”的采购单价已达每帧0.5到2美元——远高于传统标注的每张图片几分钱。成本结构倒挂:算法越聪明,数据采集越贵。
班加罗尔的雨夜,骑手苏雷什同时接了两套任务。一套来自Zomato送餐系统,要求他30分钟内送达;另一套来自Human Archive的App,要求他“保持头盔摄像头持续录制,不要遮挡”。前者的薪酬按单结算,后者每周支付约1500卢比(约18美元),相当于他日均收入的四分之一。
Human Archive的合同写明:工人只负责“佩戴设备”,不拥有录制数据的所有权,且“无法知晓最终训练何种模型”。苏雷什可能正在帮一家美国仓储机器人公司训练拣货算法——那家公司的自动化设备,未来会取代他的送餐工作。这种不知情下的数据劳动,和早期内容审核员“只看到删帖指令、不知道审核标准”一模一样。印度电子信息技术部2023年的一份白皮书警告:全印约200万零工工人直接或间接参与AI数据相关工作,近八成不清楚自己的数据被谁使用、用于什么目的。
把Human Archive放进全球版图里看,它复刻了一条熟悉的路径:硅谷设计算法与标准,中国提供规模化制造与标注,印度等地区供应原始行为数据——就像过去富士康在郑州组装iPhone,只不过这次“组装”的是人类行动轨迹。
差别在于,数据采集的产权更模糊。一台iPhone出厂时谁制造的清清楚楚,而一名印度骑手的步伐数据,经过清洗、标注、训练后嵌入波士顿动力Atlas机器人的步态控制算法,没有任何来源印记。2024年3月,Human Archive官网更新了“合作案例”页面,展示一段机器人开门视频,底部小字写着“部分训练数据来源于合作项目”——没有提及班加罗尔,没有提及工人姓名。
将来某天你在仓库里看到机器人精准避让货架、缓缓推开一扇门时,那个优雅的动作里,藏着多少陌生人的急刹、闪躲和无意识的重复?谁该为构成其“常识”的肉身劳动付费?