近日,全球AI领域迎来一则重磅消息:小米正式发布首款自研旗舰大模型Xiaomi MiMo-V2-Pro,同时推出MiMo-V2-Omni和MiMo-V2-TTS两款配套模型。这一动作标志着小米正式加入大模型竞争赛道,引发行业广泛关注。此前,一款名为Hunter Alpha的神秘模型在OpenRouter平台引发猜测,如今真相浮出水面——它正是MiMo-V2-Pro的内部测试版本。
回溯至3月11日,OpenRouter平台突然上线Hunter Alpha模型。该模型以"隐身模式"发布,未标注开发者信息且提供免费访问权限。测试数据显示,其具备1万亿参数规模和100万token的上下文窗口,自称"以中文训练的中国AI模型"且知识截止时间为2025年5月。这些特征与DeepSeek此前模型风格高度相似,导致市场普遍猜测这是DeepSeek的秘密测试项目。然而,小米MiMo团队近日正式认领该模型,揭开这场"乌龙事件"的真相。
此次发布的三款模型中,MiMo-V2-Pro作为旗舰基座模型备受瞩目。该模型采用超大规模稀疏化设计,总参数达1万亿级,但单次推理仅激活420亿参数。这种MoE(专家混合)架构通过动态激活部分子网络,在保持计算效率的同时扩展模型容量。在注意力机制方面,创新性地引入分层组合的混合注意力结构,将局部窗口注意力与全局注意力相结合,既限制计算复杂度又保留长距离依赖关系,有效解决长上下文场景下的注意力退化问题。
技术突破带来显著性能提升。MiMo-V2-Pro的上下文窗口扩展至100万token,支持在单次上下文中保留完整任务状态、工具调用结果和历史决策路径。在匿名测试阶段,该模型已展现出代码生成、开发工具调用和自动化任务处理等强项。基准测试数据显示,其在通用Agent能力评估(Claweval)中得分61.5,逼近Claude Opus 4.6;编码能力更超越Claude Sonnet 4.6,接近Opus级别。定价策略同样具有竞争力,256K上下文长度下输入单价为每百万1美元,输出3美元;扩展至100万上下文时,输入单价仅2美元,输出6美元,约为Claude Opus 4.6的五分之一。
小米AI团队领军人物罗福莉是这场技术突破的关键推手。这位毕业于北京大学计算语言学研究所的科研人才,曾主导开发阿里多语言预训练模型VECO,并在DeepSeek期间参与MoE大模型DeepSeek-V2的核心开发。2025年11月加入小米后,她带领团队历时数月训练出1T基础模型。在社交平台分享中,罗福莉透露团队曾设定"每天与AI对话少于100次可辞职"的硬性指标,这种高强度研发模式推动模型快速迭代。她特别强调混合注意力机制的创新价值,认为这种架构决策为智能体时代构建了结构性优势。
行业对小米的AI转型给予积极评价。前阿里巴巴通义千问核心技术负责人林俊旸在社交平台点赞称"太棒了",雷军则在发布后第一时间宣布模型在全球大模型综合智能排行榜Artificial Analysis上位列第八,按品牌排名超越xAI Grok。他坦言小米在AI领域长期保持低调,但实际进展超出外界想象。为支持AI战略,小米计划今年投入超过160亿元研发资金,展现布局智能时代的决心。随着MiMo-V2-Pro的正式发布,这场由神秘模型引发的行业猜想,最终演变为中国科技企业在大模型领域的又一次重要突破。





