近日,具身智能领域迎来一笔重磅融资——灵初智能宣布完成天使轮及Pre-A轮共计20亿元融资,投资方涵盖国家级国资资本与核心产业资本。其中,天使轮由国开金融、国中资本、央视融媒体产业投资基金等“国家队”资本,以及某数千亿上市公司旗下战投、长飞光纤旗下基金等产业龙头,联合元生创投、珠海科技产业集团等知名基金共同参与;Pre-A轮则由上海国资徐汇资本领投,梁溪科创产业二期母基金、锡创投等地方国资,及普丰资本、钛铭资本等市场化基金跟投,多家老股东超额追加投资,华兴资本担任长期财务顾问。本轮资金将主要用于物流场景的规模化落地与数据采集体系建设。
与传统机器人企业聚焦硬件不同,灵初智能从成立之初便明确“模型公司”的定位。其创始人团队来自云迹科技、京东算法核心部门,却选择了一条反常识路径:不涉足核心零部件研发,不碰移动底盘,甚至不急于推出完整双足人形机器人,而是将重心放在“通用灵巧操作”这一被行业长期忽视的领域。公司CEO王启斌指出:“自2015年配送机器人兴起以来,‘手’的操作难题始终未解,这恰恰是具身智能突破的关键。”
在王启斌看来,当前具身智能行业正陷入“冷启动”困境:由于缺乏真实操作数据,模型无法泛化,导致机器人难以大规模部署;而部署不足又反过来限制了低成本数据的获取。这种“鸡生蛋”的循环与特斯拉FSD的成长路径形成鲜明对比——特斯拉通过百万级Model 3销量积累底层数据,实现FSD快速迭代,但具身智能领域尚无类似的数据源头。为此,灵初智能将战略重心转向数据基建,试图通过构建低成本、高质量的人类操作数据体系破解僵局。
去年,UC Berkeley提出的UMI范式试图通过低成本夹爪采集数据,但灵初智能认为其存在根本局限:UMI采集的是“人戴夹爪”的数据,而非人类自然操作数据,导致模型难以泛化至五指灵巧手等复杂结构。灵初智能的解决方案是“人类多模态数据采集引擎”——该系统整合视觉(多视角)、触觉(压阻/电容)及21个关节角信息,可完整记录人类操作时的底层逻辑。通过“重定向”技术,模型能将人类意图映射至不同构型的机器人本体,实现“一次学习,多形态适配”。
成本优势是该方案的核心竞争力。据透露,灵初数据采集设备的硬件投入仅为真机遥操作方案的十分之一,且计划于今年3月推出便携式版本,进一步将成本降低一个量级。未来,公司甚至考虑通过“众包”模式,让普通人在日常工作中佩戴设备采集数据,构建去中心化的数据回流网络。王启斌强调:“低成本只是基础,如何将高信噪比数据有效训练进模型,才是灵初的核心壁垒。”
在商业化落地场景的选择上,灵初智能避开了“抓取-放置”等简单任务,转而深耕衣服供包、入箱拣选、分拨墙等复杂物流场景。以商超补货为例,机器人需完成拆箱、取物、推车、上架、理货等一系列动作,涉及视觉识别、柔性抓取、轨迹规划、力控等多重挑战。目前,灵初智能已在衣服供包场景实现800 UPH(每小时单位数)的节拍,达到国内最高水平,并进入客户现场陪产阶段。
针对模型碎片化与场景泛化的质疑,灵初智能技术负责人Viktor详细拆解了其技术管线:首先通过数据手套采集长程、多任务人类操作数据完成预训练,培养具备广泛泛化能力的“基础模型”;随后在选定机型上进行少量遥操作数据采集,实现模型与硬件的适配;再通过强化学习提升任务成功率与节拍;最终在真实部署中,由人工纠错异常案例,并将数据回流迭代模型。这种分层训练体系既保证了通用性,又兼顾了场景性能。
对于具身智能的长期发展,灵初智能认为这是一个十年周期的赛道,当前正从硬件创新转向数据驱动的第二波浪潮。公司计划到2026年将真实世界人类操作数据规模提升至百万小时级别,并基于此训练出高度泛化的预训练模型。届时,其商业模式将涵盖数据采集设备销售、数据资产变现及场景解决方案交付,形成多元化收入结构。在行业热衷于讨论人形机器人形态时,灵初智能选择回归数据本质,试图通过降低“教机器人操作”的成本,掌握通往通用具身智能的关键钥匙。



