数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

小米大模型团队突破音频推理,强化学习助力登顶MMAU榜首!

2025-03-17来源:ITBEAR编辑:瑞雪

小米大模型团队在音频推理领域取得了一项引人注目的成就。近日,该团队宣布,他们受Deepseek-R1的启发,在国际权威的MMAU音频理解评测中取得了突破,以64.5%的准确率登顶榜首,并且已经将相关技术开源。

MMAU评测集,即大规模多任务音频理解和推理评测集,是衡量音频推理能力的重要标尺。它包含了一万条涵盖语音、环境声和音乐的音频样本,并结合人类专家标注的问答对,测试模型在27种技能上的表现,旨在推动模型达到接近人类专家的逻辑分析水平。然而,这一评测标准对人类来说也并非易事,人类专家在MMAU上的准确率也不过82.23%。

在小米大模型团队登顶之前,MMAU官网榜单上的佼佼者是来自OpenAI的GPT-4o,其准确率为57.3%,紧随其后的是Google DeepMind的Gemini 2.0 Flash,准确率为55.6%。而来自阿里的Qwen2-Audio-7B模型,在此评测集上的表现则为49.2%。

小米大模型团队并未止步于Qwen2-Audio-7B模型的表现。他们利用该模型的开源特性,尝试使用清华大学发布的AVQA数据集进行微调。AVQA数据集虽然仅包含3.8万条训练样本,但通过全量有监督微调(SFT),Qwen2-Audio-7B模型在MMAU上的准确率提升到了51.8%。这一初步成果为团队后续的研究奠定了坚实的基础。

DeepSeek-R1的发布为小米大模型团队带来了新的启示。该模型采用的Group Relative Policy Optimization(GRPO)方法,使得模型能够通过“试错-奖励”机制自主进化,涌现出类似人类的反思和多步验证等推理能力。小米大模型团队深受启发,尝试将DeepSeek-R1的GRPO算法迁移到Qwen2-Audio-7B模型上。

经过不懈的努力,小米大模型团队最终取得了令人瞩目的成果。在仅使用AVQA的3.8万条训练样本的情况下,强化学习微调后的模型在MMAU评测集上实现了64.5%的准确率。这一成绩不仅远超Qwen2-Audio-7B模型微调前的表现,也比目前榜单上第一名的商业闭源模型GPT-4o有近10个百分点的优势。

小米大模型团队的这一成就,不仅展示了他们在音频推理领域的强大实力,也为整个AI领域带来了新的启示。他们通过开源技术和创新算法的结合,推动了音频理解和推理能力的提升,为未来的AI发展开辟了新的道路。

Apple Store应用6.6版焕新登场:液态玻璃设计带来视觉与交互新体验
2025-11-14 08:20:29 作者:狼叫兽 今日,iPhone与iPad平台的AppleStore应用迎来6.6版本更新,此次更新引入了全新设计的应用图标,并对界面进行了视觉升级,以适配iOS 2…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

中国“天衍-287”超导量子计算机搭建完成 搭载同款芯片将全球开放应用
感谢IT之家网友 的线索投递! 11 月 14 日消息,据《科创板日报》11 月 13日报道,从中国电信量子研究院获悉,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”已完成搭建。 该量子计算系…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

京东11.11平板教育品类齐发力 办公游戏平板热销 智能学习设备受青睐
直播渠道同样表现抢眼,联想小新Pro GT、荣誉平板GT2 Pro、小米平板7 Pro获得观众最多青睐。在新兴的闺蜜机品类中,海信、小度添添、小米占据品牌领先地位,海信大白闺蜜机X8 Pro、小度添添闺蜜机…

2025-11-13

荣耀500系列或11月24日登场 骁龙8系加持2亿主摄 影像续航双升级
据悉,荣耀500系列将延续“中屏旗舰”定位,提供两款机型:标准版荣耀500将搭载高通骁龙8s Gen4移动平台,而高配版荣耀500Pro则配备更强劲的骁龙8至尊版移动平台。 除核心性能外,荣耀500系列在…

2025-11-12

华硕提前布局库存应对存储涨价,后续将灵活调整产品与售价策略
IT之家 11 月 12 日消息,华硕联席 CEO 胡书宾昨日在公司的 2025 年第三季法人说明会上表示,该企业已建立一定库存应对目前的DRAM 内存和 NAND 闪存涨价情况;华硕将调整产品组合,适度灵…

2025-11-12

vivo Y500 Pro正式登场!1799元起售,影像续航双优能否搅动中端市场?
2025年11月10日,根据多家科技媒体的消息,vivo这家智能手机厂商举行新品发布会,推出Y系列新一代产品——vivo Y500 Pro,这款产品集影像、设计、系统、耐用、续航等多方面优势于一体,配备2亿H…

2025-11-12