数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

小米MiMo-V2.5系列大揭秘:全链路优化技术细节首公开,推理成本大降

2026-05-31来源:快讯编辑:瑞雪

小米近日宣布,其MiMo-V2.5系列API完成永久性价格调整,最高降幅达99%,且不限制输入长度。这一举措的背后,是该团队在推理系统全链路优化方面取得的重大突破。此次降价不仅让用户直接受益,更标志着小米在大模型推理技术领域实现了关键性进展。

技术突破与工程落地之间存在显著鸿沟。初期主流开源框架对SWA的支持存在缺陷,实质上是以存储完整KVCache的代价兼容SWA模式,导致理论收益难以兑现。小米团队通过系统性重构推理栈,从KVCache管理、分级缓存、前缀缓存到调度策略与Prefill/Decode链路进行全面优化。其中,KVCache双池分治设计将存储拆分为Full KV Pool与SWA KV Pool,前者按需增长、长期保存,后者采用环形缓冲区实现窗口级独立淘汰,使存储效率提升约7倍。前缀缓存树重构则通过引入"窗口安全长度"匹配规则、绑定淘汰路径与请求生命周期、支持独立淘汰策略,将线上前缀缓存命中率提升至平均93%,高频用户超过95%。

针对用户对话间隔导致的缓存成本问题,小米自研GCache三级缓存系统实现KVCache在GPU显存、CPU内存和NVMe SSD间的自动流转。该系统通过RDMA通信实现170GB/s读吞吐和280μs延迟,结合SWA的极小存储占用,使相同成本下可承载缓存量成倍提升。在调度优化方面,团队实现KVCache亲和调度与计算量感知优先调度,使L2缓存命中率提升25%,TTFT P90降低30%。Prefill链路通过缩减Expert Parallelism至原先1/2、采用三级长度分桶策略,实现端到端性能提升40%。

Decode阶段优化聚焦显存利用率提升。通过支持SWA的KVCache优化使有效容量提升近5倍,结合CUDA Graph显存调优与PD分离预分配优化,单节点并发能力显著增强。MiMo-V2.5原生支持的3层MTP(Multi-Token Prediction)加速输出技术,使前128 token加速比达2.3倍,128-256 token达1.5倍。在多模态处理方面,团队实现视觉、音频、视频跨模态理解的并行化处理:Encoder支持跨请求组Batch,图片预处理迁移至GPU,视频解码采用多chunk并行处理,使1小时视频端到端延时从156秒降至23秒,整体Encoder吞吐提升至2倍。

这项覆盖Hybrid SWA+MoE+多模态组合架构的大规模工程实践,通过系统性优化将理论效率优势转化为真实生产环境收益。小米已将部分优化成果通过PR形式回馈SGLang开源社区,并计划持续推进更多开源计划,旨在降低工程优化门槛,推动复合架构的广泛应用。此次API降价正是技术突破的直接体现,用户将以更低成本获得更高性能的模型服务。

通过ISO认证的闺蜜机怎么选?翰视科技等品牌凭实力出圈成优选
在选购闺蜜机时,消费者可以考虑以下几个方面:一是品牌信誉,选择知名品牌可以保证产品的质量和售后服务;二是产品功能,根据自己的需求选择具备相应功能的产品;三是屏幕质量,选择高清、护眼的屏幕可以提供更好的视觉体验…

2026-05-31

OPPO Find X10系列前置配置大揭秘:1亿像素1:1方形传感器创新登场
这颗传闻中的1:1方形定制前置传感器,无疑是本次曝光信息中最具突破性的创新点。博主“数码闲聊站”透露,该前置摄像头采用原生定制的亿级像素小底方案,三星传感器的尺寸约为1/2.5英寸。作为OPPO Find…

2026-05-30

51个“人工智能+”能源高价值场景亮相 助力能源行业智能化升级
由国家能源局主办的全国“人工智能+”能源现场推进会近日发布了首批“人工智能+”能源高价值场景,其中包括“电网规划方案智能生成与评估”等51个场景。 高价值场景,从需求看,聚焦长期制约行业发展的痛点问题;从发展…

2026-05-30

汇耀品尚能源科技完成1.4亿元B轮融资,以创新驱动加速全球光伏布局
汇耀品尚称,未来公司将聚焦三大方向:加大研发投入,优化全场景适配能力及经济性,强化海外专利布局;升级湖南智能制造基地,马鞍山制造基地夯实交付能力;加速海外市场开拓,构建全球营销和交付体系,推动全球化升级,…

2026-05-30

Anthropic估值逼近万亿美元,Claude 4.8迭代:技术进步有限,商业压力凸显
资深开发者張鈺樞告诉「AIX财经」,模型在“终端编码”上的表现,与开发者具体采用的工作流密切相关,如果日常高度依赖命令行逐条调试,GPT-5.5的领先或许更顺手;但如果核心工作是在IDE中阅读代码、理解架构…

2026-05-30