数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

Claude Sonnet 4.6重磅登场:百万token上下文,多领域能力全面升级

2026-02-19来源:快讯编辑:瑞雪

Anthropic 近日正式推出其最新模型 Claude Sonnet 4.6,并宣称这是目前性能最强的 Sonnet 系列版本。该模型在编码、计算机操作、长上下文推理、智能体规划、知识处理和设计等多个领域实现了全面升级,同时保持了与前代 Sonnet 4.5 相同的价格体系:每百万输入 token 收费 3 美元,每百万输出 token 收费 15 美元。

在计算机使用能力方面,Claude Sonnet 4.6 延续了 2024 年 10 月首发的通用计算机操作模型技术路线。通过模拟真实软件环境(如 Chrome、LibreOffice、VS Code 等)的 OSWorld 基准测试显示,该模型在处理复杂电子表格、多步骤网页表单填写等任务时已达到人类水平,并能在多个浏览器标签页间整合信息。尽管目前仍落后于专业人类用户,但其进步速度显著,且在抵抗提示注入攻击方面较前代有重大改进,安全性能与同期发布的 Opus 4.6 持平。

技术团队通过对比图表揭示了模型迭代轨迹:自 2024 年 10 月以来,Sonnet 系列在 OSWorld 基准上的得分持续攀升。值得注意的是,2025 年 7 月更新的 OSWorld-Verified 基准通过升级任务质量评估体系和基础设施,为模型能力验证提供了更严格的测试环境。最新测试表明,Sonnet 4.6 在处理长上下文时表现尤为突出,其 100 万 token 的超大窗口容量可完整容纳代码库、长篇合同或数十篇研究论文,并在推理过程中保持高度一致性。

在 Vending-Bench Arena 商业模拟测试中,Sonnet 4.6 展现出独特的战略思维。该模型在运营初期大幅增加产能投资,支出远超竞争对手,随后在第十个月突然转向利润最大化策略,最终以显著优势领先。这种"先扩张后收割"的运营模式,印证了其在长程规划和资源分配方面的进化。

用户反馈数据显示,约 70% 的开发者在代码修改任务中更倾向选择 Sonnet 4.6,认为其上下文理解能力和逻辑整合效率显著提升。在与 Opus 4.5 的对比测试中,59% 的用户认为新模型减少了过度工程化问题,在指令遵循、幻觉控制和多步骤执行方面表现更优。目前该模型已全面开放使用,覆盖 Claude 套餐、Cowork 协作平台、Code 开发环境及主流云平台,免费用户也可通过默认升级体验文件创建、连接器等新增功能。开发者可通过 Claude API 快速调用 claude-sonnet-4-6 接口进行集成开发。

华为新品密集曝光:鸿蒙PC迭代在即,手环平板手机齐上新
结合来看,华为手环 11 系列定位轻薄运动手环,预计带来标准版和 Pro 版两个机型,提供多个可选的表带方案。目前,华为官方暂未公布这款手环更多信息,但作为迭代款,华为手环 11 系列产品预计将在 10 …

2026-02-19

Claude Sonnet 4.6来袭:智能媲美Opus 定价亲民,或成开发者新宠
在大多数Agent任务上,Sonnet 4.6的表现跟Opus系列差不多好,速度还更快,价格只要1/5。计算机操作能力,可以说是这次Sonnet 4.6最亮眼的部分了,Anthropic也在这部分花了不…

2026-02-18

苹果加速智能家居布局:第三代HomePod与自研传感器即将登场
IT之家 2 月 18 日消息,彭博社的马克 · 古尔曼(Mark Gurman)昨日(2 月 17 日)发布博文,报道称除了 AI智能眼镜、AI 吊坠、AI 版 AirPods 三款可穿戴设备外,苹果正加…

2026-02-18

三星Galaxy S26系列来袭:AI赋能影像,开启创意拍摄新玩法
PConline了解到,此次Galaxy S26系列带来了多项颠覆式的AI创作功能,用户只需通过语音描述创意想法,无需手动操作,就能快速实现画面修复、场景转换与多图合成。这款搭载2nm芯片、全焦段影像系统与…

2026-02-18

宇树机器人春晚舞“武”生风,科技赋能传统文化绽放新光彩
本次节目中,宇树的人形机器人展现出前所未有的运动性能,实现了多项全球首次技术突破:实现全球第一次连续花式翻桌跑酷,全球第一次弹射空翻、空翻最大高度超3米;全球第一次单脚连续空翻、两步蹬墙后空翻,以及全球第一…

2026-02-18