小米MiMo降价99%背后：罗福莉用六项工程细节，拆解AI降本真实逻辑-人物动态-数据世界

近日，小米旗下大模型MiMo-V2.5系列API宣布永久降价，最高降幅达99%，同时将所有context长度统一定价，Token套餐容量提升5至8倍。这一消息在AI行业引发广泛讨论，部分观点认为这是国产大模型新一轮价格战的延续，也有人将其解读为小米在利润承压背景下通过“烧钱”抢占市场的策略，更有声音指出这是受DeepSeek行业定价基准调整的影响。

面对外界质疑，MiMo负责人罗福莉通过技术博客详细拆解了降价背后的工程逻辑。她强调，此次降价并非营销手段，而是基于真实技术突破的成本优化结果。核心在于针对用户长对话中重复读取历史上下文的场景（Input Cache Hit），通过工程创新将这部分成本压缩至接近零，从而支撑99%的折扣力度。

具体而言，MiMo团队通过六大工程实现降本：首先，重构模型架构，将70层中的60层改为滑动窗口注意力机制（SWA），仅保留10层处理全部历史，使KVCache（模型短期记忆）体积压缩至传统架构的1/7；其次，开发双池显存分配系统，为SWA层和全注意力层分别分配独立显存池，避免空间浪费，使单GPU并发用户数提升5倍；第三，优化前缀缓存命中规则，引入“窗口安全长度”机制，确保复用数据的有效性，线上实测命中率达93%-95%。

在存储环节，团队自研GCache分布式缓存系统，直接利用GPU机器自带SSD存储数据，消除额外存储成本，同时延长缓存存活时间，进一步提升命中率。调度系统方面，通过亲和路由、长度分桶和TTFT优化策略，将L2缓存命中率提升25%，单机吞吐量提高30%，长请求延迟降低30%。最后，模型原生支持多token预测（MTP），在生成阶段实现2.3倍加速，降低输出成本，形成完整的降本闭环。

罗福莉在博客中指出，MiMo-V2.5的推理效率提升源于多维度协同优化。例如，Hybrid SWA架构需配合重构的KVCache管理、分级缓存和调度策略，才能将理论优势转化为实际性能。团队还通过MoE配置和多模态推理优化，进一步提升了线上服务能力。这一系统性工程打法，为行业提供了可复制的降本范式。

行业分析认为，小米此次降价虽与市场环境有关，但核心逻辑在于通过技术突破重构成本结构。当95%的重复读取请求无需计算，且存储、调度等环节成本趋近于零时，即使定价下降99%，模型仍能保持正向毛利率。这种“技术驱动降价”的模式，与单纯依赖补贴的价格战形成本质区别。