数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

深夜发布!Claude Opus 4.5编程能力登顶,AI圈格局迎来新变革

2025-11-26来源:快讯编辑:瑞雪

人工智能领域迎来重大突破,Anthropic公司深夜发布全新模型Claude Opus 4.5,凭借其卓越的编程能力迅速登顶全球编码王座。这款模型不仅在编程性能上实现质的飞跃,更在智能体协作和计算机操作方面展现出前所未有的实力,标志着AI技术进入全新发展阶段。

基准测试数据显示,Opus 4.5在SWE-bench Verified测试中取得80.9%的准确率,刷新世界纪录。该模型在ARC-AGI-2评估中以64k版本获得37.6%的高分,在编码、工具调用和计算机使用等核心指标上全面超越Gemini 3 Pro和GPT-5.1。更令人瞩目的是,在真实场景的软件工程测试中,Opus 4.5的表现甚至超过经验丰富的人类工程师,在Anthropic的远程测试中得分超越所有历史人类候选人。

这款模型的核心优势在于其自主处理复杂问题的能力。面对多系统漏洞时,Opus 4.5能够自动分析模糊信息,权衡不同解决方案的利弊。在模拟航空公司客服场景中,当客户要求修改不可更改的基本经济舱预订时,模型创造性地提出"先升级舱位再修改航班"的合规方案,展现出超越传统AI的逻辑推理能力。这种突破性表现使测试者普遍认为Opus 4.5已达到"专家级"水准。

技术架构方面,Opus 4.5引入三大创新工具:工具搜索工具、程序化工具调用和工具使用示例。工具搜索工具通过按需加载机制,将上下文消耗减少85%,使模型能同时处理数千个工具而不受token限制。程序化工具调用允许模型编写Python脚本编排工作流程,在预算合规性测试中,该技术将中间结果消耗从200KB压缩至1KB,准确率提升23%。工具使用示例功能则通过提供具体调用案例,使复杂参数处理准确率从72%跃升至90%。

实际应用层面,Claude开发者平台迎来重大升级。Opus 4.5支持多智能体协同工作,用户可同时运行多个本地或远程会话,实现修bug、查资料、更新文档等并行操作。Claude for Chrome现已向所有Max用户开放,Excel工具测试权限扩展至企业级用户。针对开发者最关心的成本问题,Anthropic宣布通过投入度控制参数,在保持性能的同时将token消耗降低48%-76%,总使用上限提升至与Sonnet 4.5相当的水平。

安全性能方面,系统卡评估显示Opus 4.5是Anthropic迄今最稳健、对齐程度最高的模型。在抵御提示词注入攻击测试中,该模型展现出显著优势,面对高强度欺骗指令时仍能保持正确响应。这些特性使其成为首个通过多项安全认证的企业级AI解决方案,为金融、医疗等敏感领域的应用铺平道路。

行业分析师指出,Opus 4.5的发布不仅重塑了AI技术竞争格局,更预示着软件开发模式的根本性变革。其自主解决问题能力和多智能体协作框架,正在推动AI从辅助工具向独立工作伙伴演进。随着Claude Code等配套产品的完善,未来开发者的工作方式可能发生颠覆性改变,代码生产效率有望实现数倍提升。

奥特曼与艾维携手:OpenAI神秘AI硬件现原型 两年内或量产上市
北京时间11月25日,据科技网站9to5mac报道,OpenAI与苹果前首席设计官乔尼·艾维(JonyIve)合作的神秘AI硬件有了最新消息。 奥特曼和艾维在这次活动上略微分享了他们的合作成果。他希望Op…

2025-11-26

灵光上线6天下载量破200万,“灵光闪应用”引领全民AI开发新潮流
据了解,灵光首批上线三大核心功能——“灵光对话”、“灵光闪应用”和“灵光开眼”,开创性地在移动端实现“自然语言30秒生成小应用”,并且可编辑可交互可分享,也是业内首个全代码生成多模态内容的AI助手,支持3D…

2025-11-26

3599元旗舰之争:红米K90 Pro Max与一加15,谁才是你的理想之选?
红米K90 Pro Max堆料可以说堆到没朋友,主摄用到光影猎人950这种旗舰大底传感器已经很强了,更关键的是它给你安排了一颗5X潜望式长焦,还有三颗5000万像素的三摄组合,让你从广角到潜望全都能拍,且能拍…

2025-11-26

想用7年不换机?这3款16GB+512GB手机闭眼入,性能影像续航全拉满
主摄为5000万像素索尼IMX921,超广角摄像头为三星JN1,这一代还加入潜望长焦摄像头索尼LTY-600,既可以拍摄人像,也可以拍摄远景,iQOO 15还有vivo手机最好的人像,拍出来的效果也更加完美…

2025-11-26