数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

小米发布开源Xiaomi-Robotics-0大模型 破解推理延迟痛点推动具身智能发展

2026-02-12来源:快讯编辑:瑞雪

小米公司近日宣布,正式推出并开源其首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0,标志着具身智能领域迎来重要技术突破。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,突破了传统VLA模型因推理延迟导致的物理世界交互瓶颈,在消费级硬件上即可完成高效推理,多项性能指标刷新行业纪录。

传统VLA模型虽具备强大的泛化能力,但高延迟问题严重制约了机器人在动态环境中的响应速度。小米研发团队通过架构创新破解这一难题,采用"大脑+小脑"双核心设计:以多模态视觉语言模型(VLM)构建认知中枢,可解析人类模糊指令并识别复杂空间关系;通过多层扩散变换器(DiT)搭建动作执行模块,利用"动作块"生成技术与流匹配算法,确保机器人动作的精准性与高频性。这种混合架构使模型在保持认知能力的同时,将物理交互延迟降低至行业领先水平。

在训练体系方面,小米独创跨模态两阶段训练法。预训练阶段通过动作提议机制实现视觉特征与动作空间的深度对齐,在冻结VLM参数的前提下专项优化DiT模块,使模型同时掌握物体识别、逻辑推理与操作技能。后训练阶段引入异步推理框架,结合清洁动作前缀与Λ型注意力掩码技术,有效解决真实机器人执行中的动作断层问题,既保证运动轨迹的连续性,又强化了对实时视觉反馈的响应能力。

为推动技术生态建设,小米已全面开源Xiaomi-Robotics-0的技术文档、训练代码及模型权重,提供完整的开发工具链支持。与此同时,小米机器人团队正式启动全球人才招募计划,面向计算机视觉、强化学习、机器人控制等领域专家,共同探索物理智能的前沿边界。此次开源不仅为学术界提供重要研究基准,更为工业界落地具身智能应用开辟了新路径。

华为李小龙揭秘:nova 15系列如何通过技术优化实现电池容量高效释放
李小龙称,关机电压的高低非常关键,好比在水杯底部装一个放水的阀门,如果关机电压高于终止电压,电池容量就无法完全被释放,而顺利倒出的“水量”就可以看作手机真正可以使用的容量。 IT之家注意到,李小龙最后还介绍…

2026-02-12

字节跳动火山引擎定档2026年2月14日 豆包大模型系列升级即将重磅登场
经过一年多的持续升级,豆包大模型家族在多模态理解和生成能力、Agent 能力上,已位于全球第一梯队。 去年发布的豆包大模型 1.8专门面向多模态 Agent 场景进行了定向优化,工具调用能力、复杂指令遵循能…

2026-02-12

2026年OPPO快充充电宝怎么选?5款高性价比强磁吸款测评+避坑指南来了
下面,我们将为你推荐5款值得入手的磁吸充电宝,每款产品都具有独特的优势,能够满足不同用户的需求。在选购时,可以通过查看产品参数或者实际体验来判断磁吸充电宝的磁力强弱。在选购时,可以通过查看产品的参数或者实际…

2026-02-12

苹果手机抖音去水印难?实测5款免费工具,保姆级教程+宝藏推荐来啦!
作为常年混迹各大平台的素材搬运工,我今天就用我的iPhone,实测了市面上热门的5款免费去水印工具,把真正好用的宝藏和保姆级教程一次性打包给你! 最后再划一次重点:对于苹果手机用户来说,想在微信生态内找到最方…

2026-02-12

OPPO手机快手去水印不求人!两款5年口碑免费小程序,高清秒处理教程来了
更崩溃的是,好不容易找到个工具,去完水印视频画质直接跌到360p,或者用几次就弹出“观看广告解锁”“付费会员专享”……是不是血压瞬间上来了? - 追求极致画质(尤其是夜景视频):小青去水印和坤坤去水印的超分辨…

2026-02-12