数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

阿里Qwen3.7-Max模型在Code Arena编程榜居第二,Design Arena亦获佳绩

2026-05-26来源:快讯编辑:瑞雪

全球人工智能领域权威编程评测榜单Code Arena近日完成更新,阿里巴巴自主研发的旗舰大模型Qwen3.7-Max以1541分的成绩跻身全球前列。该模型在编程能力评估中位列全球第四,仅次于Claude系列的三款模型,在大模型厂商中稳居第二把交椅。

作为人工智能领域最具公信力的编程能力评估平台,Code Arena的评测体系突破传统学术测试框架,重点考察模型处理复杂代码生成、调试与重构任务的实际能力。为确保评测结果的真实性,平台采用用户随机盲测机制,模型需在未知考题的情况下即时完成编程任务,有效杜绝了数据泄露与针对性优化等作弊行为。

在最新公布的榜单中,Qwen3.7-Max不仅超越了Claude-opus-4-6模型,更在综合实力上领先GLM-5.1、Kimi-k2.6等知名模型。评测数据显示,该模型在代码逻辑严谨性、功能实现完整度等核心指标上表现突出,展现出处理工业级编程任务的强大潜力。

值得关注的是,阿里巴巴在AI模型评测领域持续取得突破。在同期发布的Design Arena榜单中,Qwen3.7-Max同样表现优异,位列全球第十。这个被业界誉为"AI奥林匹克"的评测平台,通过真实用户盲测机制对模型进行多维评估,其结果被广泛视为衡量AI模型综合实力的重要标准。

Design Arena及其衍生评测体系(包括图像侧的Image Arena/LMArena)构建了覆盖代码生成、视觉理解等多领域的评估框架。该平台通过动态更新的测试用例库和严格的防作弊机制,确保评测结果能够真实反映模型在真实应用场景中的表现,其权威性得到全球AI研究机构的广泛认可。

xAI虽散场,Grok新模型与智能体却强势来袭,马斯克能否改写AI战局?
值得一提的是,在后续的补充训练中,团队加入了大量来自 Cursor 的数据,并且这一数据源还会继续扩充。如果 Grok新模型能够有效利用这些数据,那么它将更懂真实开发者的工作方式,而非只是 GitHub…

2026-05-26

预算2000元左右选512GB手机?这三款高性价比机型近乎“零差评”,用五年没问题
红米K80是整个手机市场,千元价位段唯一一款拥有2K屏的手机,没有之一。 最后,上面这三款手机的价格都在2000元左右,都是拥有高性价比的手机,红米K80使用2K屏和超声波指纹,一加Ace5有风驰游戏内核,…

2026-05-26

讯飞三款智能办公本深度评测:Air2Pro会议无忧、起点阅读助力学习、X3Pro团队协作更高效
讯飞起点阅读器:学习助手 7英寸彩墨屏,支持电子书、有声书切换。 AI助手推荐个性化书单,适合学生及职场人士。讯飞X3Pro:团队协作利器灵动条设计,文档浏览速度提升40%。 X3Pro:协同办公,团队管理…

2026-05-26

轨物科技携光伏智能运维方案亮相展会,以AI创新实力助力行业高质量发展
杭州轨物科技有限公司(以下简称 “轨物科技”)创始人陈科明及其团队携核心技术成果受邀亮相本次展会,凭借无人值守光伏电站智能运维方案,集中展示企业在光伏运维领域的人工智能创新实力,收获行业广泛关注。从数据采集网…

2026-05-26