文丨镜相工作室 彭杰克
编辑丨胡苗
“以后都是机器人在工作,咱们又要出去找新工作了。”排队等待的时候,我的临时搭档李晨晨看着前一组的两人,突然感叹到。
前一组正在凌乱的桌子前,重复着一个颇有未来感的画面:
一个人,戴着装有运动相机的头盔和手套,身后拖着三根粗细不一的长线,行动迟缓地微微弯腰,单手把一本书拉到桌子边缘,拎起,放进置物架,然后又慢慢侧身,把一包随意放置的湿纸巾推到置物架旁边摆正。
长线另一端,她的搭档坐在电脑前,盯着显示器上的传感器和相机画面,挪动鼠标、切换视角,观察映射出的3D模型运动轨迹是否和真人一致、相机信号是否稳定……
他们在教机器人如何整理桌面、打扫卫生、铺床或者折衣服。人做的每一个动作——先拿什么后拿什么、用什么姿势、抓物品的哪个地方、使多大劲……都会被相机和传感器记录下来,转换成数据,经过质检、标注后用于训练机器人模型。

通俗点来说,我们是数据采集员,也是机器人的老师。
就像人类幼儿要学会走路、拿筷子,需要大人手把手地教,机器人也一样,需要大量的人类动作数据来“喂”它。只不过,这些数据在互联网上十分稀缺。机器人要学会叠衣服、擦桌子、开门、整理书籍,必须先有人一遍遍地做给它看。
原本机器人最美好的愿景是服务于人,但在它学会服务之前,人先弯下腰,成了它的燃料。
在北京的一间民宿里,我见到了被裁员的程序员、背着房贷的前房产中介、结伴来的大学生......他们戴上头盔和手套,一遍遍重复叠被子、折毛巾、整理桌面,把自己的身体经验拆成数据,卖出去,全勤一个月能拿大约6000元。
这短暂地成了他们的一份工作,一份谁也不知道能干多久的工作。
李晨晨今年36岁,做了很多年IT运维工作,2024年被裁员后创业,亏光了积蓄,还倒欠了几万元。她看着前一组那个缓慢整理桌面的人,像看到了某种隐喻——等机器人学会了所有这些,人还能做什么呢?
一种巨大的无力感席卷这个空间,这里的人或许都希望那一天不要来得太快。
像机器人一样地行动
6月的一个下午,我花了半个小时,在招聘网站海投了近十家公司的机器人数据采集岗。
很快,有四家公司联系了我,三家确定了第二天的线上面试,其中一家还是估值百亿元的机器人公司。但也只有这家招全职,并会通过第三方劳务公司缴纳“五险一金”,其余两家是“外包”公司,后来我发现它们都为同一家数据采集公司服务。
事实上,缴纳“五险一金”的公司占比极低,这些机器人数据采集岗大多在兼职渠道流通。一般是200元一天,工作八小时,晚班因为昼夜颠倒,会比白班每天多50元。工资有周结也有月结,干的时间过短,可能会被扣除一部分工资。
成为一名机器人数据采集员不算难。投简历、被拉进招聘群、线上面试、线下试岗,整个过程最快24小时内就能完成。我最终参加了两家公司的线上面试,只被询问了身高和体重,最终都通过了,并去了无需全职的公司试岗。
这个岗位几乎不看学历和经验,入行门槛最终退回到了身体机能。
有30多个人和我参加了同一场视频群面。
一位众包外卖员很热情,圆胖的脸被晒得黢黑,声音高亢地做了一段自我介绍。他说自己以前是程序员,被裁员后开始送外卖,但还是想找份稳定的工作。他不太确定岗位到底叫什么,憋了半天说自己是来应聘“抓娃娃”的。面试官很平静地纠正他,“是机器人数据采集”。
一位应届毕业生报完身高体重,身型比较娇小,面试官的言语间表现得有些迟疑,让她把手掌伸到镜头前,看了看说,先来试试吧。
整场面试下来,只有一位应聘者被当场拒绝。理由是体型过于肥胖,无法穿戴数据采集设备。
对于这个刚刚兴起的行业来说,什么才是最理想的数据采集范式,还没有形成统一答案。目前主流的方案大致可以分为三类:真人数据、仿真数据和真机遥操数据。
真机遥操数据,是由人远程操作或通过外骨骼设备,控制机器人在真实环境中完成任务,机器人身上的传感器同步记录全过程。这类数据最接近机器人未来实际工作的场景,被认为价值最高,但其成本也最高——相当于同时承担机器人本体和人工操作两层成本,目前主要由机器人厂商自建采集体系完成。
仿真数据则是在虚拟环境中生成的数据,不需要真实场地和真人,成本主要来自算力,可以大规模并行训练。但由于虚拟世界与现实世界之间存在差距,材质、摩擦、光照等细节很难完全复刻,训练出来的机器人到了现实里可能会“水土不服”。
真人数据则有两种情况,一种仅采集真人行为视频,成本最低,但能够提供的信息相对有限。另一种在视频基础上加上了动作捕捉、传感器轨迹等,能记录更多细节,价格适中,是目前最划算的方案。
我们应聘的便是真人数据采集岗。一套真人采集设备,主要由一个装有运动相机的骑行头盔、两只内置传感器的数采手套、手部运动相机、多个定位器以及配套软件组成。加起来约十万元,招聘方告诉我们,这套设备目前正在申请专利。
正式工作前,需要经过三天培训和试岗。
第一天,项目经理和组长挨个“捏手”,检查每个人的手部条件。数采手套是均码,手指太长不行,太短不行,太胖不行,太软也不行。四十多个试岗人员排排坐,把手放在身前待检。检查结束后,现场少了四五个人。
李晨晨也在被淘汰的边缘。她的小拇指偏短,戴上手套后,传感器在指节位置皱成一团,软件无法准确还原指关节的动作。她仰头瞪大眼盯着组长,央求说让她再试试。组长点了点头。
但手指只是第一关。
第二天,开始实操,人少了一半。我和李晨晨被分到一组,她调试软件,我穿戴设备。先戴头盔,确保固定牢靠;再套上一层一次性手套防汗,然后戴上内置了传感器的数采手套,最外层再加一层针织手套,用来隔绝信号干扰;三根长长的数据线从手套和头盔延伸出来,被一根松紧带固定在腰间。
接下来,我需要双手平举在胸前保持不动,等待软件校准。
李晨晨坐在电脑前,对着屏幕里的虚拟手模型不断调整参数,组长坐在旁边指导。十分钟过去,模型手依然没调到合适的位置。组长有些着急,直接接过鼠标,点了几下,“就这样,换人,下一个。”
李晨晨起身帮我拆设备。那天天气不热,房间里开着空调,但她额头上已经冒出一层细汗。“学不会。”她低声说。
第三天试岗,李晨晨没有出现,组长重新给我安排了搭档,一位护理专业应届生。
这一天工作地点安排在一间两室一厅一厨一卫的民宿。我和搭档在主卧,任务是整理床铺、折叠毛巾;另一组人在客厅采集整理桌面的数据。还有一些同事被安排到桌游馆、厨房等场景工作——具体去哪里、做什么,取决于机器人公司的数据需求。
我们被要求像机器人一样地行动——慢,手指活动幅度小。这是一个和本能对抗的过程。
起初,我像平时做家务那样,尽可能高效的完成。弯腰、拿起枕头、放一边,组长在一旁说:“快了,视频里都成虚影了,等下传感器会跟不上。”我有意识地放慢速度,组长又说:“太僵硬了,自然一点,只是动作慢,但要像人一样。”
于是,我不得不紧绷腰臀部的肌肉,拎起毛巾、展开、铺平、折叠、压实,拉平被子、掖好边角、整理褶皱,每一个动作都尽可能地缓慢、完整、连续。
“不要甩毛巾、抖被子。”组长补了一句。因为小臂处没有相机和传感器,机器人看不懂、跟不上,这类动作都被禁止。
我们还被要求灵活变换物品摆放的位置和整理物品的动作。有时毛巾在被子上方,有时夹在枕头缝隙里,我们有时要用一只手拎起枕头的一角,有时又要用两只手把枕头抱起。这是为了丰富数据的类型。
工作前,组长跟我们说,工作地点就在民宿,上厕所还是很方便的。但事实上,穿脱、调试设备往往需要至少十五分钟,上一次厕所,会浪费两个人将近半小时的时间,而少采一分钟,都可能影响最终的绩效考核——采集的数据过少不扣钱,但每天采集的有效数据达到5小时、18000秒,才会奖励50元。
这里的时间是按秒计算的。一天86400秒,一个班次工作8小时,也就是28800秒。作为新手,我们需要每天采集约9000秒的有效数据,但在戴上设备、调试设备的1000多秒时,我就感到了疲倦。
为了不让头部相机在我的运动过程中晃动,我只能尽可能旋紧头盔的调节带,这使头盔像孙悟空的金箍一样死死地扎在我的头顶;防汗用的一次性手套,经过层层包裹,形成了高温高湿的“小气候”,采集一轮后,也不过是2000多秒,摘下时,手套和我的手都变得潮湿又皱巴。
傍晚,我已经记不清自己叠了多少次被子、折了多少条毛巾,肩颈因为头盔的重量变得酸痛,腰也因为长时间弓着身子有些僵硬。在机器人学会像我一样工作之前,我先变得和它们一样了。
谁在买卖燃料?
试岗那天,这些正在申请专利的设备几乎一直在出问题。一会儿是定位器频繁断联,一会儿是传感器发生形变,无法校准;不同人的手型还会导致映射效果出现偏差。
一位运维人员在几栋楼之间来回奔波,换着方案不停重启、调试,额头上的汗一直没干过。因为设备是全新研发的,没有标准操作流程,只能靠人工调整。他告诉我,半个月前他还在做视频剪辑,来到这里后,修设备的知识也是现学的。
“两小时了,数采手套还没连上。”隔壁组的一位组员有些无奈。他举着双手站在原地配合调试,肩膀酸了就活动两下,然后继续保持姿势等待。那天八小时的工作时间里,我们有将近一半时间耗在了设备调试上。
所有人都希望设备尽快恢复正常。这里只有24套设备,也是整个空间里最昂贵的“资产”。为了尽可能高效利用这些设备,公司安排了白班和夜班,每套设备对应4名采集员轮换使用。设备闲着一分钟,就意味着少一分钟数据产出。
而在具身智能行业,这样由真人操作、有视觉和传感器信息的数据,有价无市。据澎湃科技报道,当前,具身智能数据总体定价区间在200至500元/小时,部分在现实场景中实际操作采集的真机数据高达每小时1000元。理论上,一组机器人数据采集员,一天工作8小时的有效数据产出,最高可以卖到1600至8000元。
但“有效”两个字就像是在给数据“过筛”。在8小时的班次里,视频画面丢失、动线设计不合理、操作重复、相机拍到人脸,都意味着数据失效,需要在对应的数据文件上标叉,然后重新开始。
熟练的采集员一天能产出4-5小时的有效数据,新手往往只有2-3小时。这些数据在流入市场之前,还要经过质检、清洗、标注,每一轮都在损耗,最终能按那个价格卖出去的,远比想象中少。
即便打了许多折扣,数据依然值钱。但值钱的是数据,不是生产数据的人。
劳务公司告诉我们,这个岗位白班日薪200元,晚班日薪250元。而招聘方又说,他们实际给了劳务公司每个人每天300元,“不便宜”。从人的日薪200元到数据每小时最低200元,中间隔着劳务公司、数据服务商、机器人厂商等,每一层都从中抽走了价值,采集员就站在这条价值链的最底层。
这条价值链之所以存在,恰恰是因为数据太稀缺了。
一家估值超过百亿元的机器人公司HR透露,机器人数据生产大致分为采集、质检和标注三个环节,眼下行业最紧缺的仍然是最前端的数据采集。
这类数据天然无法从互联网获得。过去几年,大语言模型能够快速成长,一个重要原因在于互联网已经积累了海量文字、图片和视频,模型只需要不断阅读和学习这些公开内容,就能获得关于互联网世界的大量知识。
机器人不同。机器人需要学习的是如何抓取杯子、折叠衣服、打开柜门、搬运物品,这些知识并不存在于现有的互联网数据库里,只存在于人的身体经验之中。
智元机器人合伙人、具身智能业务负责人姚卯青曾表示,机器人完整的数据,包括各种传感器所带来的数据,有视频,还有力触觉传感器等,它需要以某种方式去采集。无论是在真实环境里采集,还是在虚拟世界里采集,都需要先布设机器人、搭建场景,再引入遥操人员来控制机器人采集这类数据。
换句话说,大模型主要是在学习如何像人类一样地思考和表达,机器人则是在学习如何像人类一样地行动,对真实的物理世界产生影响。
这也是机器人数据采集爆发的根本原因。截至2026年初,全球高质量真实物理交互数据总量仅约50万小时,而训练通用具身智能模型需要千万小时起步,缺口巨大。
需求迅速催生出一门新的“卖铲子”生意。
智元机器人、银河通用、自变量机器人等机器人公司,都加速自建数据体系,建设真机数据采集基地、训练机器人“小脑”模型,甚至推动数据业务独立拆分;京东建设数据采集中心,希望两年内积累1000万小时真实场景数据。
但嗅到机会的并不全是机器人相关的公司。我试岗的这家公司去年成立,核心团队此前从事VR设备相关业务。运营负责人告诉我们,公司已经完成融资,目前最主要的工作是为机器人企业采集和生产训练数据。
与此同时,不少活跃在具身智能数据赛道的明星企业,如无问智科、弈人科技,最早其实诞生于自动驾驶浪潮之中。随着具身智能升温,这些公司开始将原有的数据生产能力迁移到机器人领域,从仿真数据逐渐扩展到真实场景数据采集。6月22日,如祺出行也发布了具身智能数据平台。
今年,多家数据服务企业陆续披露融资和订单情况,有的转型不到一年,数据采集业务收入便超过亿元,有的获得多轮亿元乃至十亿级融资,在手订单达到数亿元规模,部分数据采集企业甚至比机器人本体厂商更早实现盈利。
不确定的人进入不确定的行业
试岗结束后,我再也没见过李晨晨。那些走了的人,雁过无痕。留下来的人,困在这套设备里,也困在自己的生活里。
在机器人数据采集现场,我很少听到有人讨论机器人,大家聊得更多的是房贷、婚育、找工作和工资。
一个前地产中介,31岁,不久前辞了职。大概六七年前,他在河北廊坊买了房,背上房贷。如今他和妻子在北京城区租了一个小单间,房租、房贷成了两人每月的固定开支。
“先干着吧。”他说。他知道这不会是一份长期职业,但眼下没有更好的选择。过不了多久,他的妻子就要休产假了,在此之前他希望能找份更稳定的工作。
一个25岁的女孩,和丈夫认识三个月就结了婚,之前在父母开的电商公司工作。因为这段婚姻,她从家里出走,但未能顺利解除劳动关系,只能到处找兼职。机器人数据采集是她出走后的第一份工作。
还有两个结伴而来的大学生,来自北京某大专院校物联网专业。他们参加过市级竞赛,拿过奖项,履历并不差。培训时,公司负责人走到他俩面前,半开玩笑地感慨:“还是工作不好找啊。”
另一位刚工作一年的女生比较简单——天气太热,她不想在外面跑面试,于是先来做兼职,等天气转凉点再找新工作。调试设备时,她举着胳膊站了十几分钟,第二天手臂酸得发抖。
这些人年龄不同、经历不同,来到这里的原因也不同,但他们有一个共同点:都在等待下一份更确定的工作出现。没人相信自己会一直干下去。
事实上,这份工作也很难一直干下去。枯燥本身就会筛掉一大批人,第一天的40多人,到第三天,已经只剩下20个人。很多人不是因为被淘汰,而是受不了。
我也只忍受到了第三天,没拿到工资。
但与此同时,外面关于这个行业的传言却越来越热闹。过去一年中,社交媒体上流传着不少关于数据采集员的帖子。智联招聘2026年产业人才报告显示,这个岗位招聘职位数同比暴涨769%。
央广网和央视财经将它定义为具身智能浪潮下的热门新职业,预计未来五年全产业链相关岗位增量将突破百万。各地机器人企业、数据服务商持续线上线下大规模招工,职校校企专场、居家兼职招募广告随处可见。
“热门新职业”“百万岗位缺口”“门槛低、上手快”——这些词听起来像是一个风口在向所有人招手。但真正进到这个行业的人很快发现,确实有高薪,比如通过外骨骼设备或遥操系统直接控制真实机器人的操作员,这需要一定的技术背景,采集员日薪可达千元以上。
但更多的还是最下面那一层——日薪两百。便如这间民宿里的人。
在这家公司里,大部分中基层员工都不是正式员工,而是通过第三方劳务公司招聘。负责培训我的组长今年21岁,是机电专业应届毕业生,来到公司不过三个月时间。因为控制成本,公司暂时没有扩张团队,他至今仍然按照周结方式领取工资,劳务公司要从他的日薪中抽去两成。
即使是身处行业中心的人,也很少对未来做出长期承诺。培训时,运营负责人只能告诉我们,公司未来一年的订单已经确定,未来两年发工资没有问题。
听到这句话,我们纷纷扭头,彼此对视,眼神有些意味深长。
订单在增长,融资在增长,行业规模也在增长,但在这间民宿里,这些数字和站在床边弯腰叠毛巾的人没什么关系。
具身智能依然是当下最热门的创业赛道之一,企业相争融资、上市,资本也在不断涌入,所有人都在争抢高质量数据。但另一方面,它也依然处于早期阶段,机器人还不能稳定、成规模地投入市场,很难独立完成一个完整、流畅的家务动作。
因此,整个行业都在拼命收集完整的机器人数据。今天的机器人需要学习如何叠毛巾,于是有人重复折叠几百上千次;需要学习如何整理桌面,于是有人一遍遍把水杯归位、书本按大小放整齐,再打乱重来。这些数据最终会变成机器人的能力。
但当机器人真的学会了这些动作之后呢?
类似的变化在大语言模型行业发生过。最初,行业需要大量标注员处理基础数据,标注员也成为了一个“热门新职业”——门槛低、需求大、到处招人。人们只需坐在电脑前,给图片打标签、给文字分类,用最机械的劳动喂养最前沿的算法。
但随着模型能力提升,简单标注逐渐失去价值,需求开始向法律、医疗、教育、科研等专业领域转移,真正稀缺的标注员成了高等院校毕业的硕士、深耕行业的专家。
眼下这间民宿里的人,正在走同一条路。数据采集不会消失,但采集员未必还是今天这批人。苗头是,行业里已经开始讨论数据标注质量、场景真实性以及数据是否真正能够提升模型能力。换句话说,机器人学到的越多,人类需要教给它的东西也会变得越难。
下午六点半,我们撤下设备,给相机和定位器充电,离开民宿。两个半小时后,夜班的采集员会陆续到岗。那时候,设备重新启动,定位器亮起绿灯,新一轮的数据采集开始了。24套设备,几乎昼夜不停地运转。
在民宿之外,关于这个行业的叙事,是另一套话术:这是一个即将解放人类劳动力的万亿级产业,机器人将走进千家万户,照顾老人、陪伴孩子、打理家务......
我们不知道机器人什么时候能够服务于人类,但知道在这之前,会有人重复千万遍同样的动作,把自己与世界相处的经验拆解成数据,把身体里的常识、习惯和判断一点点教给机器。仅仅只是把这份工作视作人生中的一个临时停靠点,但他们做的事情,却指向一个漫长得多的未来。
至于未来到来的那一天,自己会身处何处,没有人知道答案。
“以后都是机器人在工作,咱们又要出去找新工作了。”我又想起李晨晨说的这句话,想起她说这句话时皱着的眉头和牵强上扬的嘴角。她至今没敢告诉父母自己欠下的债务,和四处找兼职的境况。
(李晨晨为化名。)
参考资料
澎湃新闻:《具身智能带火了数据采集生意》
硅谷101:《走进数采工厂:深聊机器人数据荒漠、四层金字塔与种树人》
上观新闻:《京东将发动数十万人给机器人“当老师”,打造全球最大具身智能数据采集中心》
猎云精选:《具身智能,卖数据的先赚钱》
