数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

DeepSeek推出Math-V2模型:首个达奥数金牌水平且开源的数学新势力

2025-11-29来源:快讯编辑:瑞雪

人工智能领域迎来新突破,DeepSeek近日在Hugging Face平台悄然开源了一款名为DeepSeek-Math-V2的数学推理模型。该模型不仅成为行业首个达到国际奥林匹克数学竞赛(IMO)金牌水平的开源项目,更在多项基准测试中展现出超越谷歌旗舰模型的实力,引发全球科技圈关注。

根据同步发布的技术论文,DeepSeek-Math-V2在IMO-ProofBench基准测试中表现亮眼。在基础子集测试中,该模型以近99%的准确率遥遥领先,较谷歌Gemini DeepThink(IMO Gold版)89%的得分高出10个百分点。尽管在更复杂的进阶子集中以61.9%略逊于对手的65.7%,但其整体性能已证明具备挑战行业顶尖水平的实力。论文特别指出,该模型在2025年IMO预选赛和2024年中国数学奥林匹克(CMO)中均达到金牌标准,在普特南数学竞赛(Putnam 2024)中更以118分(满分120)的接近完美表现刷新纪录。

这款模型的核心创新在于突破传统AI的"结果导向"训练模式。研究团队通过构建自我验证机制,使模型能够像数学家般严格审查证明步骤,而非单纯追求正确答案。这种过程导向的设计使其摆脱对海量标注数据的依赖,在无人工干预情况下持续优化解题能力。论文强调:"当面对没有已知解的开放性问题时,这种自我验证能力将成为扩展测试时间计算的关键。"

技术突破背后折射出AI数学推理的深层挑战。当前主流模型虽能给出正确答案,却难以保证推理过程的严谨性,这在需要严格证明的定理推导中尤为致命。DeepSeek的研究团队通过引入可验证的推理框架,为解决这类复杂问题提供了新思路。这种转变不仅提升模型在数学领域的表现,更为开发通用型AI推理系统奠定基础。

海外科技社区对这项成果反应热烈。有网友评论称:"当DeepSeek用10%的优势击败谷歌IMO冠军模型时,整个行业都为之震动。"更有推测认为,这家以低调著称的机构可能还储备着编程领域的突破性模型。值得注意的是,近期AI行业迎来密集更新潮:OpenAI推出GPT-5.1、xAI发布Grok 4.1、谷歌上线Gemini 3系列,而DeepSeek的此次动作被视为对头部厂商的有力回应。

尽管Math-V2已展现惊人潜力,研究团队仍保持谨慎态度。他们在论文中承认,当前模型在处理超复杂问题时仍存在局限,但自我验证方向的可行性已得到验证。随着行业对AI推理能力的要求日益提高,这项突破或许将开启数学人工智能的新纪元。市场正密切关注DeepSeek何时会放出其旗舰模型的更新版本,这家被称作"AI鲸鱼"的机构,下一步动作值得期待。

豆包语音对话功能升级啦!单音色畅说4种方言还能听懂18种方言
11月28日消息,近日,豆包语音对话功能迎来更新,可以说4种地道方言,包括粤语、四川话、东北话及陕西话。 目前,用户打开豆包App对话框,发送简单的文字或语音指令,要求豆包使用上述方言对话,通过默认的“温柔桃…

2025-11-29

4699元起售!华为Mate 80系列开售 性能影像双提升还首发无网通信
其中Mate 80 Pro 12GB搭载麒麟9030,Mate 80 Pro 16GB为麒麟9030 Pro,Mate 80 ProMax和Mate 80 RS非凡大师均为麒麟9030 Pro。 据华为介…

2025-11-29

华为Mate80 RS非凡大师维修价引关注:主板价超小米旗舰,究竟值不值?
根据华为官方公布的维修价格,华为Mate80 RS非凡大师主板维修6499元起步,甚至比小米17 ProMax起售价格还要高。 华为Mate80 RS非凡大师作为年度顶级旗舰,其核心配置为华为历代最强,维修价…

2025-11-29

华为Nova 15系列爆料来袭:多项旗舰技术下放,影像芯片全面升级
微博新知博主@GeeK老王 近日爆料称,华为Nova 15系列已进入EP阶段,全系标配多项旗舰级技术,包括2.5D护眼直屏、WiFi-7、RYYB传感器和北斗卫星通信等功能。除了博主提到的2.5D护眼直屏和W…

2025-11-29