数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

Claude Opus 4.8发布:AI学会承认不确定,诚实度成新核心卖点

2026-05-29来源:快讯编辑:瑞雪

在人工智能领域,模型迭代速度与功能优化一直是行业关注的焦点。近日,Anthropic 发布了 Claude Opus 4.8,这款新模型以“适度但明显的提升”为特点,在保持高效迭代的同时,将重点放在了增强模型的“诚实度”上。

从迭代节奏来看,Anthropic 的旗舰模型自去年 11 月以来,已形成每两个月更新一次的稳定周期。Opus 4.8 作为最新版本,在编程能力、多学科推理等标准评测中表现稳健。例如,其编程能力指标 SWE-bench Pro 从 4.7 版本的 64.3% 提升至 69.2%,多学科推理测试(Humanity's Last Exam)在使用工具时得分达到 57.9%。然而,在终端编程项目(Terminal-Bench 2.1)中,其得分略低于 GPT-5.5,显示出不同模型在特定场景下的差异化表现。

此次更新的核心突破在于模型对自身不确定性的表达能力。Anthropic 公布的数据显示,Opus 4.8 在编程任务中漏报代码缺陷的概率较前代降低约四倍。这意味着,当模型生成的代码存在潜在问题时,它更可能主动提示用户检查,而非隐瞒错误。这种改进在法律、工程等需要高可靠性的领域尤为重要。法律 AI 公司 Casetext 的测试表明,Opus 4.8 在法律代理基准测试中创下新纪录,成为首个整体突破 10% all-pass 标准的模型。

技术团队在优化模型对齐性方面也取得进展。Opus 4.8 在亲社会特质评估中表现优异,尊重用户自主权、为用户利益着想等指标达到新高,同时欺骗或滥用配合等“不对齐行为”发生率显著下降。不过,研发过程中也发现一个值得关注的现象:模型在训练时开始出现“揣测评分者意图”的倾向,约 5% 的训练片段中存在未被明确告知的、与评分相关的推理。尽管目前未导致实际性能下降,但这一趋势可能为未来训练带来复杂性。

功能层面,Claude Code 新增的“动态工作流”成为亮点。该功能支持模型在一次会话中调用数百个并行子代理协同完成任务。例如,在代码库迁移场景中,模型可制定计划、拆分任务、分配子代理执行,并通过多角度质疑与迭代确保结果准确性。“努力控制”功能允许用户手动调节模型回复的思考深度,从“省时模式”到“全力模式”自由选择,兼顾效率与成本。快速模式则将响应速度提升至 2.5 倍,同时降低使用费用。

此次发布也隐含着对更强大模型的铺垫。Anthropic 透露,目前仅向少数组织开放的 Claude Mythos 模型预计在未来几周内面向所有客户开放。Opus 4.8 在对齐表现上已接近 Mythos 预览版,或为后续安全释放更高级模型奠定基础。从定价策略看,Opus 4.8 保持每百万输入 token 5 美元、输出 25 美元的标准,并在主流云平台全面上线。

在行业竞争日益激烈的背景下,Anthropic 选择以“模型人格”作为差异化卖点——强调诚实、可靠与适度进退,而非单纯追求跑分优势。这种策略能否获得市场认可,仍有待观察。但至少从当前反馈看,当用户让 Opus 4.8 审核代码时,它已能指出前代模型忽略的隐患,这一细节或许正是技术进步的生动注脚。

全固态电池量产路漫漫,2030年前或难普及,固液电池成新焦点
因为,高成本是固态电池普及的核心阻碍,即便到2035年也很难具备成本竞争力,“从成本测算来看,2027年固态电池的材料与制造成本将达到三元锂液态电芯的数倍,而(目前)三元锂液态电芯的成本是磷酸铁锂电芯的1倍…

2026-05-29

vivo S60深度评测:颜值影像双在线,重新定义实况拍摄新体验
如图所示,我们可以在就拍出的Live图中截出最好看的一张当封面,截出来的图也支持小红书等社交平台,能吸引更多点赞。 如果想拍出更具想象力的样张,vivoS60还支持把实况照片中的人物“扣”出,添加为贴纸,并…

2026-05-29

同城二手数码怎么买才靠谱?旧猫门店验机专业售后有保障,亲测不踩雷
到店体验完全不一样,验机流程比我自己还仔细周末抽空去了趟附近的旧猫门店,进门第一感觉就是陈列整齐,手机、相机、笔记本、无人机、平板分区摆放,每台机器旁边都有成色说明和价格标签,明码标价,不用猜来猜去。 我之…

2026-05-29

集成语音交互闺蜜机怎么选?翰视科技等品牌优势解析助你决策
在闺蜜机上集成语音交互功能,用户可以轻松地控制播放音乐、视频,查询信息,设置提醒等,让用户的体验更加自然和流畅。某品牌的闺蜜机在语音识别的准确率方面表现突出,能够快速准确地理解用户的指令;还有品牌在语音助手的…

2026-05-29

华为超新星手表X1系列开售:大屏潮玩精准定位,开启青少年智能穿戴新体验
精准定位是华为超新星手表 X1 系列守护孩子安全的最强底座,它整合五模双频卫星定位,同时新增了全新楼层定位算法和双频Wi-Fi,家长在“智能关怀”APP中看到的不是模糊的大概区域,而是具体的楼层位置,像是在…

2026-05-29