启动大规模数据采集 京东欲破解具身智能“大脑”瓶颈

来源 | 《财经》新媒体 作者 | 撰稿人 王婧雅 编辑 | 高素英  

2026年04月17日 21:55  

本文2595字,约4分钟

能歌善舞、会翻跟头、能骑车……如今的机器人在硬件与动作控制上已愈发成熟,但在业内看来,它们大多只是“小脑发达、大脑空白”,更像一个被遥控的木偶,自主决策能力严重缺失。

4月16日,京东集团技术委员会主席、京东云总裁曹鹏在京东具身智能生态发布会上直言,具身智能行业当前最大瓶颈不在机械本体,而在数据与模型。训练一个具备强泛化能力的具身大模型,至少需要1000万小时量级的真实操作数据。而目前市面上能拿到的相关数据集,加起来不过几十万小时,且场景单一、高度依赖特定机器人硬件,换个设备就基本没法用。

面对行业瓶颈,京东提出了两年发动60万人采集1000万小时数据的目标,并开放平台促进数据的采集和流通。在业内看来,数据质量的提升,可以推动模型进化,模型成熟后反过来又能降低数据采集成本。不过,目前,具身智能行业仍处于初级发展阶段,距离大规模场景落地仍需时间。

具身智能发展“数据”缺失

京东将行业数据现状形容为一个“残缺的金字塔”。在曹鹏看来,这个金字塔分为三层结构,底层是海量的互联网视频数据。这类数据的优点是“量大管饱”,可以用于大模型的预训练。但它们没有本体信息,没有标注,没有具体的场景指向性,非常随机。机器人看了可以理解“这是什么物体”,但无法知道“怎么抓、用多大力、以什么角度操作”。

中间层面向真实场景、带语义标注、动作对齐、可泛化的数据,但目前几乎是一片空白。曹鹏指出,正是这个中间层的缺失,导致整个数据金字塔断裂。底层数据量大但不可直接用,顶层数据精准但无法规模化、无法泛化。模型训练缺少了最关键的那一桶“燃料”。

顶层则是针对特定机器人的遥操数据。由工程师站在机器人旁边,用手柄操控机器人完成抓、拿、取、放等动作,逐条采集。这类数据精准、与硬件匹配度高。这种方式有两个严重问题。

在京东集团副总裁、京东云基础云业务负责人龚义成看来,一方面是效率极低、成本极高。一家头部公司积攒两三年,往往只有两三万条数据条目,而训练一个像样的模型需要上千万小时的数据,差距是三个数量级。另一方面,场景严重受限。遥操只能在实验室或经过改造的环境中完成,很多真实场景,比如仓库狭窄货架间的分拣、家庭厨房的精细操作、户外复杂地形的导航,根本进不去。机器人出了实验室就“水土不服”,泛化能力差,根本原因就在这里。

更棘手的是,这些遥操数据通常与特定机器人本体强绑定。曹鹏表示,A机器人公司采集的数据只能A机器人公司用,B机器人公司再重新做,造成了极大的浪费。数据无法跨本体迁移,意味着整个行业的数据积累效率被大幅拉低。

让机器人模仿人 启动大规模数据采集

面对上述困境,京东选择了一条不同的技术路线,不再让机器人模仿机器人,而是让机器人模仿人。

核心是把数据采集视角从机器人头顶转移到人类第一视角。对此,京东构建了一个新的数据金字塔,最底层是千万小时级的“人类第一视角视频数据”,作为模型的预训练基座;中间层是百万小时级“人类实操数据和仿真增广数据”;顶层才是与遥操数据。

这套架构的逻辑是,先让模型看懂人是怎么干活的,再适配到不同机器人身上。京东集团具身智能首席专家林倞将这一目标概括为“一脑多形”,一个模型兼容不同的末端执行器。

为了支撑这一转变,京东推出了仅重220克的可穿戴设备JoyEgoCam,在正常作业过程中就能完成专业级数据采集。

与此同时,京东还将进行大规模数据采集行动,两年内将采集1000万小时基于真实场景的无本体视频数据,再加100万小时机器人本体数据。

不过,硬件只是入口。真正的门槛在数据处理环节。原始视频要变成模型可用的结构化数据,需要经过子任务分割、语义标注、几何校正、手势定位、深度重建等一系列工序。

林倞表示,具身智能的数据构建本身就是研究课题,“数据金字塔怎么构成、数据质量怎么把握、怎么在数据层面连通人的数据和机器人本体的数据,这些问题的技术难度不亚于模型开发本身。”

为了解决这一问题,京东自建了覆盖采、存、标、训、评、仿、测的全链路基础设施。目前具身大模型JoyAI-RA,真机任务成功率已达73.5%,超过pi0.5等SOTA模型。

对于未来发展,京东具身智能研究员李一航表示,具身智能远未到Scaling Law(缩放定律)失效的阶段,“随着数据量级的扩充,具身模型泛化能力还在指数级别的提升,当前首要任务是往前做,而非过早定论。”

押注具身智能超级供应链

比技术更值得关注的是京东的商业模式意图。京东同步上线了具身智能数据交易平台,首批定向开放2000小时高精标注数据集EgoLive,并支持数据方、开发者、应用方多方协同。

曹鹏表示,这个平台一方面会把京东采集的数据开放给行业,另一方面也希望合作伙伴把各自的数据聚合上来,真正为整个行业提供助力。

龚义成反复强调,京东的目标不是成为单纯的数据供应商,而是打造“具身智能超级供应链”。希望看到机器人行业能够加速成熟,能够落地到各个场景里,真正意义上把整个供应链的效率提升到非常高的高度。

这背后,是京东的双重布局:一方面向行业开放数据与算力基础设施,帮助更多具身智能公司解决“大脑”训练问题;另一方面推进京东自有场景,如仓库、门店、药房等的智能化改造,同时打造具身智能的销售与售后服务生态。

据悉,目前,京东JoyInside附身智能已与近200个家电家居、机器人、玩具等品牌深度合作;京东零售2026年将助推机器人品牌伙伴累计销售破100亿元;京东物流持续构建机器人售后维修服务生态,专业工程师规模将拓展至超万人;京东工业打造一站式工业供应链技术与服务,将实现机器人制造物料100%覆盖。

对于外界普遍担忧的“技术替代人”问题,龚义成认为,技术发展不是为了替代人,而是创让生活更美好。“技术不断发展的过程中,有一些传统岗位在变化,但又会创造出很多新的岗位。”从数据采集、数据标注到机器人维保,新的就业链条正在形成。

216.73.216.29