数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

小米MiMo降价99%背后:罗福莉用六项工程细节,拆解AI降本真实逻辑

2026-05-31来源:快讯编辑:瑞雪

近日,小米旗下大模型MiMo-V2.5系列API宣布永久降价,最高降幅达99%,同时将所有context长度统一定价,Token套餐容量提升5至8倍。这一消息在AI行业引发广泛讨论,部分观点认为这是国产大模型新一轮价格战的延续,也有人将其解读为小米在利润承压背景下通过“烧钱”抢占市场的策略,更有声音指出这是受DeepSeek行业定价基准调整的影响。

面对外界质疑,MiMo负责人罗福莉通过技术博客详细拆解了降价背后的工程逻辑。她强调,此次降价并非营销手段,而是基于真实技术突破的成本优化结果。核心在于针对用户长对话中重复读取历史上下文的场景(Input Cache Hit),通过工程创新将这部分成本压缩至接近零,从而支撑99%的折扣力度。

具体而言,MiMo团队通过六大工程实现降本:首先,重构模型架构,将70层中的60层改为滑动窗口注意力机制(SWA),仅保留10层处理全部历史,使KVCache(模型短期记忆)体积压缩至传统架构的1/7;其次,开发双池显存分配系统,为SWA层和全注意力层分别分配独立显存池,避免空间浪费,使单GPU并发用户数提升5倍;第三,优化前缀缓存命中规则,引入“窗口安全长度”机制,确保复用数据的有效性,线上实测命中率达93%-95%。

在存储环节,团队自研GCache分布式缓存系统,直接利用GPU机器自带SSD存储数据,消除额外存储成本,同时延长缓存存活时间,进一步提升命中率。调度系统方面,通过亲和路由、长度分桶和TTFT优化策略,将L2缓存命中率提升25%,单机吞吐量提高30%,长请求延迟降低30%。最后,模型原生支持多token预测(MTP),在生成阶段实现2.3倍加速,降低输出成本,形成完整的降本闭环。

罗福莉在博客中指出,MiMo-V2.5的推理效率提升源于多维度协同优化。例如,Hybrid SWA架构需配合重构的KVCache管理、分级缓存和调度策略,才能将理论优势转化为实际性能。团队还通过MoE配置和多模态推理优化,进一步提升了线上服务能力。这一系统性工程打法,为行业提供了可复制的降本范式。

行业分析认为,小米此次降价虽与市场环境有关,但核心逻辑在于通过技术突破重构成本结构。当95%的重复读取请求无需计算,且存储、调度等环节成本趋近于零时,即使定价下降99%,模型仍能保持正向毛利率。这种“技术驱动降价”的模式,与单纯依赖补贴的价格战形成本质区别。

vivo S60新机6月3日开售:影像电竞双强,7200mAh大电池续航给力
仅从上半年的机型,智能手机倾向于影像、电竞、高续航等方面,平板倾向于办公、电竞、学习等方面,各大新机定位越来越清晰,逐步实现精准定位,而且让机型更丰富,向着全面发展。游戏方面,支持游戏超感音域、帧率感知技术…

2026-05-31