小米科研团队在人工智能领域再传捷报,其多篇最新研究成果成功入选国际顶级学术会议ICLR 2026。此次入选的研究覆盖多模态推理、强化学习、GUI智能体、端到端自动驾驶及音频生成等前沿方向,展现了该团队在人工智能理论创新与应用实践中的深厚积累。
在强化学习领域,团队提出的《Shuffle-R1》框架通过动态数据重组技术破解了多模态大模型训练中的两大核心难题——优势坍缩与轨迹沉默。该研究创新性地采用成对轨迹采样与优势值批次重排序机制,在保持极低计算开销的同时,显著提升了梯度信号质量。实验数据显示,该框架在多个基准测试中超越现有强化学习基线,为复杂场景下的智能决策提供了新范式。
移动智能体方向的研究同样取得突破性进展。团队开发的《MobileIPL》系统首创迭代偏好学习框架,通过Thinking-level DPO技术实现思考步骤的细粒度优化。结合三阶段指令演化机制,该系统成功突破高质量轨迹数据稀缺的瓶颈,在AITZ等主流GUI智能体测试中刷新性能纪录,同时在分布外场景中展现出更强的鲁棒性。
端到端自动驾驶领域,团队提出的《ReCogDrive》方案实现了多技术融合创新。该研究通过分层认知数据流水线注入驾驶先验知识,利用认知引导扩散规划器生成物理可行轨迹,并首创DiffGRPO强化学习算法直接优化驾驶策略。闭环测试结果表明,该方案在NAVSIM与Bench2Drive等平台上的表现全面领先现有技术。
其他创新成果同样引人注目:《ThinkOmni》研究实现了文本推理能力向全模态的零成本迁移;《Flow2GAN》通过融合流匹配与对抗生成技术,在音频合成领域达成高保真少步生成;《WorldSplat》则突破4D驾驶场景生成技术,为自动驾驶仿真训练提供更真实的虚拟环境。这些成果标志着小米在人工智能基础研究领域已形成系统性布局。


