数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

谷歌Gemma 4系列AI模型迎升级:MTP起草器助力推理速度大幅跃升

2026-05-07来源:快讯编辑:瑞雪

谷歌近日宣布,为旗下开源大模型Gemma 4系列推出了一项名为多Token预测(MTP)的起草器技术。这项基于推测解码架构的创新方案,通过优化推理流程,在保持输出质量的前提下,将模型推理速度提升至原有水平的三倍。该技术尤其适用于对实时性要求严苛的场景,如聊天机器人、编程助手和移动端应用开发。

作为谷歌当前性能最强的开源模型,Gemma 4系列自发布以来表现亮眼。数据显示,该模型在短短数周内下载量已突破6000万次。此次技术升级的核心目标,是解决传统大模型推理过程中因内存带宽限制导致的效率瓶颈。据谷歌工程师介绍,现有模型在运行时需频繁将数十亿参数从显存传输至计算单元,这一过程消耗了大量时间,导致计算资源利用率低下。

MTP技术的突破性在于引入了"双模型协作"机制。系统将重型目标模型(如310亿参数版本)与轻量级MTP起草器配对运行:起草器利用闲置算力快速生成多个未来token的预测序列,目标模型则并行验证这些预测结果。若验证通过,整个序列可在单次前向传递中完成确认,从而大幅减少重复计算。这种设计既保证了输出质量,又显著提升了推理效率。

实际测试数据显示,在Apple Silicon芯片环境下,当批量处理尺寸(batch sizes)设置为4至8时,260亿参数版本的Gemma 4模型实现了约2.2倍的本地加速效果。这一提升使得开发者能够在个人电脑和消费级显卡上流畅运行复杂AI应用,包括离线编程、智能体工作流等场景。同时,边缘设备的能耗也因计算效率提高而显著降低。

该技术更新特别针对需要低延迟响应的应用场景进行优化。除了前述领域外,自主智能体和移动端AI部署也将从中受益。开发者现在可以在资源受限的环境中部署高性能语言模型,无需在响应速度和计算精度之间做出妥协。这项突破为AI技术的普及化应用开辟了新路径,特别是在消费级硬件上的落地提供了关键技术支持。