数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

通义千问开源数学模型Qwen2-Math,数学能力超越GPT-4o

2024-08-09来源:互联网编辑:芳华

8月9日消息,阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型。Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。

注:在MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,超过GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B等开闭源模型。

Qwen2-Math 基础模型使用 Qwen2大语言模型进行初始化,并在精心设计的数学专用语料库上进行预训练,训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目,以及由 Qwen2 模型合成的数学预训练数据。所有预训练和微调数据集都进行了去污染处理。

随后,研发团队训练了指令微调版本模型:基于Qwen2-Math-72B 训练一个数学专用的奖励模型;接着,将密集的奖励信号与指示模型是否正确回答问题的二元信号结合,用作学习标签,再通过拒绝采样构建监督微调(SFT)数据;最后在SFT模型基础上使用 GRPO 方法优化模型。

据悉,Qwen2-Math系列模型目前主要支持英文,通义团队很快就将推出中英双语版本,多语言版本也在开发中。

通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准 ,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024 赛题、美国数学竞赛( AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。

注:研发团队在greedy和RM@8 的条件下对模型作了测评,表中为每款Qwen2-Math-72B-Instruct模型列出了三个得分结果,分别是第1次回答得分(无下标数字)、8次回答中出现最多次数的答案的得分,8次回答中reward model所选答案的得分。

“大模型能不能做数学题”,不仅是社交平台的热门话题,也是业界非常关注的研究课题。处理高级数学问题,需要模型具备复杂多步逻辑推理能力。通义团队在技术博客中表示,希望通过开源“为科学界解决高级数学问题做出贡献”,未来将持续增强模型数学能力。

附:Qwen2-Math解题示例

Qwen2-Math解题示例
荣耀Magic8系列YOYO智能体上线,AI助力双11购物省时省心又省钱
接着,主持人具体介绍了荣耀 Magic 8 上 YOYO智能体在识别商品、查找优惠信息、领取优惠券等方面的便捷性,强调了在购物决策中的省心体验,特别是通过社交平台种草后,YOYO 智能体能高效帮助消费者获…

2025-10-22

小米YU7 GT纽北赛道再露面,量产在即,设计细节与动力性能引期待
近日,小米YU7 GT再次现身纽北赛道,整体已经接近量产状态,之前SU7Ultra上市后特别受欢迎,比大家预想的还火,这也让小米更确定要推出YU7 GT。 动力方面,参考SU7 Ultra 1548马力的最…

2025-10-22

余承东官宣华为路由X3 Pro 11月上市,独特设计及强劲性能引期待
值得一提的是,余承东还宣布将于11月10日,随机抽取20位幸运朋友,免费赠送华为路由X3 Pro日照金山新品。从余承东发布的图片来看,华为路由X3 Pro不仅拥有“日照金山”的效果,还能呈现出“皑皑雪山”的…

2025-10-22

真我GT8 Pro发布:3999元起享骁龙8E5旗舰,机械设计+理光影像亮点多
快科技10月21日消息,今天下午,真我GT8Pro正式发布,起售价是3999元,这是行业内唯一一款不到4000元的骁龙8E5(第五代骁龙8至尊版)旗舰,在同价位极具竞争力。首销期间,真我GT8 Pro用户…

2025-10-22

华为发布全球顶尖AI人才招募令,余承东诚邀热爱AI的年轻人共攀高峰
昨日,华为招聘发布“全球顶尖AI人才招募令”。 据悉,此次招聘,面向对象为2026/1/1 -2026/12/31毕业的国内高校本科生与硕士研究生,2025/1/1 - 2026/12/31毕业的国内高校博…

2025-10-22

杜克大学新突破:印刷技术助力功能完备可回收电子产品问世
【环球网科技综合报道】10月21日消息,据外媒报道,美国杜克大学的电气工程师取得重大突破,成功开发出一种全新的印刷技术,该技术能够制造出功能完备且可回收的电子产品,为电子行业可持续发展带来新可能。 据介绍,此…

2025-10-22

红米K90系列提档10月来袭!超大杯ProMAX版配置拉满,影音拍照双升级
最近一段时间里最火的新旗舰手机可能就是小米17系列了,虽然其他品牌也有旗舰手机推出,但无论关注度还是销量,小米都做到了断崖式领先。但这次红米K90 ProMAX超大杯还做了进一步升级,摄像头变成了5000W像…

2025-10-21

格力为员工发放TOSOT G7手机:由魅族设计生产 底层系统锁定无法刷Flyme
快科技10月20日消息,据媒体报道,多名网友发帖称格力给员工发了手机。一位员工表示,这次发的手机挺好的,内存高,支持5G,感谢公司投喂格力手机,不仅是福利更是底气。据悉,格力给员工发的手机型号是TOSOT …

2025-10-21

苹果iOS26.1等系统Beta4版新增“透明度”选项,提升文字辨识度
IT之家附上相关截图如下:同样,在 Mac 上,用户可以在“系统设置”的“外观”选项中找到这两个相同的设置,该选择将即时在整个系统中生效。 “透明度”模式的影响范围覆盖了整个操作系统。一旦启用,包括工具栏、侧…

2025-10-21

今晚七点!iQOO 15携骁龙8至尊版等重磅升级登场,性能体验再进阶
将在今晚七点正式发布的iQOO 15除了首批更新第五代骁龙8至尊版处理器以外,更迎来了屏幕、独显芯片、续航、散热等重大升级,下面的爆料汇总值得一看。据悉,它还将在散热、视听触等方面全方位优化,通过搭载全新升级…

2025-10-21