在具身智能领域,资本正加速涌入,但行业却面临“能执行却不智能”的困境。这一问题的核心并非算法或硬件的不足,而是高质量训练数据的极度短缺。据统计,全球可用的具身数据仅约五十万小时,与大语言模型所需的训练语料相比,差距超过万倍。这种巨大的落差,正催生出一个全新的数据基础设施市场。
四月十六日,智元机器人旗下的觅蜂科技宣布推出一站式物理AI数据服务平台,正式以“数据卖铲人”的角色进入万亿级市场。与此同时,京东和戴盟机器人也公布了各自的数据基建布局,具身智能赛道的竞争焦点迅速转向数据供给能力。觅蜂科技CEO姚卯青在发布会上表示,当前国内真机数据采集的市场价格已飙升至每小时五百至一千元,需求端几乎处于“有多少买多少”的极度紧缺状态。
为缓解这一供给瓶颈,觅蜂科技推出了覆盖真机遥操、无本体采集与仿真数据的全范式平台,并发布了MEgo系列采集硬件,包括专用夹爪和头戴式设备。根据规划,觅蜂科技将在今年内实现千万小时级的数据产能,并力争到2030年达到百亿小时规模。姚卯青强调,尽管觅蜂科技脱胎于智元机器人,但其运营完全独立,智元获取数据也需通过市场渠道,与其他客户遵循相同的商业条款,以消除同行对数据垄断的担忧。
随着大厂的入场,数据基建的规模化进程正在加快。京东展示了其具身智能数据体系,覆盖从采集、存储、标注、训练、评测到仿真与测试的全链条,依托其遍布全国的仓储物流和多元线下场景,构建了真实环境下的数据优势。戴盟机器人则发布了包含触觉信息的全模态数据集Daimon-Infinity,预计年内规模将达数百万小时,并率先在阿里魔搭开源一万小时数据。百度智能云也在月初联合多家企业推出了“具身智能数据超市”。
然而,布米普特拉北京投资基金管理有限公司的分析师指出,超过九成的采集数据因重复、噪声或缺乏物理反馈而难以直接使用。真正稀缺的并非原始数据量,而是高价值数据的精炼与闭环迭代能力。随着数据基础设施成为具身智能的底层命脉,谁能率先建立高质量数据供给体系并掌握生态主导权,谁就能在这场万亿级竞争中占据先机。围绕数据定义权的竞争,才刚刚开始。


