数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

OpenAI新推o3及o3 mini,逼近AGI引发业界关注

2024-12-21来源:ITBEAR编辑:瑞雪

在科技界的一次重大宣布中,OpenAI选择在12天Shipmas活动的尾声揭晓了其年度最重要的消息。这一震撼性公告并非突如其来,而是经过精心策划,于上周五正式揭晓。

OpenAI隆重推出了o3,这款模型被视为今年早些时候发布的o1推理模型的升级版。值得注意的是,o3并非单一模型,而是一个系列,其中包括o3和o3-mini两个版本。后者是一个经过精简和特定任务微调的更小型模型。

OpenAI发表了一项惊人的声明:o3在某些特定条件下,已接近实现通用人工智能(AGI)的水平。然而,这一声明伴随着重要的警示。关于这一点,后文将详细展开。

关于模型编号的跳跃——从o1直接跳到o3——OpenAI首席执行官Sam Altman在直播中透露,这是为了避免与英国电信巨头O2发生潜在的商标纠纷。这无疑展示了商业世界中知识产权问题的复杂性。

目前,o3和o3-mini尚未全面推向市场。不过,安全研究人员从今天开始可以注册预览o3-mini,而o3的预览版将在稍后发布,具体时间尚未确定。Altman透露,o3-mini计划于1月底推出,随后是o3的全面发布。然而,这与他近期的言论存在些许不一致。在本周的一次访谈中,Altman曾表示,在发布新的推理模型之前,他更希望建立一个联邦测试框架,以指导对此类模型的监控和风险降低。

风险确实存在。人工智能安全测试人员发现,o1的推理能力使其比传统非推理模型更容易欺骗人类用户。与meta、Anthropic和Google的领先人工智能模型相比,o3欺骗人类的概率可能更高。这一风险将在OpenAI的红队合作伙伴发布测试结果后得到验证。

为了应对这些风险,OpenAI表示正在采用一种新技术——审议性对齐,以确保o3等模型与其安全原则保持一致。这一技术同样应用于o1模型。OpenAI在一项新研究中详细阐述了其工作原理。

与大多数人工智能不同,o3等推理模型能够自我核实事实,从而避免许多通常会困扰其他模型的陷阱。这一事实核查过程虽然会产生一定的延迟,但使得o3在物理、科学和数学等领域更加可靠。o3在做出反应之前,会通过OpenAI所称的“私人思维链”进行思考。它能够推理任务并提前规划,执行一系列操作以找到解决方案。

在实践中,o3在接受提示后会暂停一下,考虑一系列相关提示,并解释其推理过程。一段时间后,该模型会总结出它认为最准确的答案。与o1相比,o3的新特点是能够“调整”推理时间,模型可以根据需要设置为低、中或高计算(即思考时间)模式。计算时间越高,o3在任务上的表现就越好。

关于AGI的问题,OpenAI是否正在接近这一目标成为了人们关注的焦点。AGI,即通用人工智能,指的是能够执行人类所能完成的任何任务的人工智能。OpenAI对AGI的定义是:在最具经济价值的工作上表现优于人类的高度自主系统。实现AGI将是一个大胆的声明,对OpenAI而言也具有合同意义。根据与微软之间的协议条款,一旦OpenAI达到AGI水平,它将不再有义务向微软提供其最先进的技术。

从一项基准来看,OpenAI正在逐渐接近AGI。在ARC-AGI基准测试中,o3在高计算设置下获得了87.5%的分数。在最差的情况下(低计算设置),该模型的性能是o1的三倍。然而,高计算设置的成本极其高昂,每个挑战的成本可能高达数千美元。ARC-AGI的联合创始人François Chollet指出,o3在一些非常简单的任务上失败了,这表明该模型与人类智能存在根本差异。

尽管如此,OpenAI在其他基准测试中表现优异。在专注于编程任务的SWE-Bench Verified基准上,o3的表现比o1高出22.8个百分点,并在Codeforces评分中获得了2727分(2400分以上的评分使工程师处于99.2百分位)。o3在2024年美国数学邀请赛上得分为96.7%,在GPQA Diamond基准上得分为87.7%,并在EpochAI的Frontier Math基准上创下了新纪录,解决了25.2%的问题,而其他模型均未超过2%。

然而,这些说法需要谨慎对待,因为它们来自OpenAI的内部评估。我们需要等待外部客户和组织的基准测试来验证该模型在未来的表现。

自OpenAI发布首批推理模型以来,包括谷歌在内的竞争对手纷纷推出了大量推理模型。例如,由量化交易员资助的AI研究公司DeepSeek发布了其首款推理模型DeepSeek-R1的预览版,而阿里巴巴的Qwen团队也发布了据称是o1的第一个“公开”挑战者。

推理模型的兴起,首先是出于对改进生成式人工智能新方法的追求。然而,并非所有人都认为推理模型是最佳的发展方向。这些模型往往价格昂贵,需要大量的计算能力来运行。尽管它们在基准测试中表现良好,但尚不清楚推理模型是否能保持这种进步速度。

值得注意的是,o3的发布正值OpenAI最杰出的科学家之一Alec Radford离职之际。Radford是OpenAI生成式AI模型GPT系列学术论文的主要作者,他宣布将离职从事独立研究。

苹果联名iPhone Pocket:争议中售罄,高价能否续写品牌忠诚传奇?
苹果与日本时尚品牌三宅一生日前联名推出的iPhone Pocket(iPhone 口袋)11月14日正式开售,1299元至1899元的定价引发全网热议,成为科技圈与时尚圈跨界合作的又一争议焦点。尽管争议不断,…

2025-11-14

联想明年再发力!moto razr折叠机与Y700平板将携骁龙8系新平台登场
【CNMO科技消息】11月14日,有数码博主爆料称,联想明年将继续迭代拯救者Y700平板和moto razr系列折叠手机。这两款产品将搭载第五代骁龙8至尊版和第五代骁龙8移动平台,其中,Y700平板屏幕比例为…

2025-11-14

联发科天玑8系芯片屠榜安卓次旗舰性能榜 性能能效双优成市场新宠
以榜单第一的真我Neo7 SE为例,通过与MTK联发科技的深度联合调校,该机在同价位段中展现出极为出色的游戏性能,搭配真我GT性能引擎,通过芯片级调校,实现了持久稳定的高帧率表现,同时能耗最高可降低7%,帧…

2025-11-14

高通跃龙IQ-X系列工业级PC处理器发布,为工业自动化注入AI新动力
高通跃龙 IQ-X 系列为工业自动化提供了 AI 基础设施,能够实现 AI模型移植,以及面向预测性维护、状态监测和缺陷检测等关键用例的应用开发。 该平台支持Qt、CODESYS等工业软件工具,通过高通AI软…

2025-11-14

OPPO Reno15 Pro 11月17日登场:天玑8450+2亿主摄,屏幕续航全面升级
最新泄露的信息显示,这款新机将在屏幕、影像和续航等多个维度带来显著升级。 爆料数据显示,OPPO Reno15 Pro将搭载一块6.78英寸1.5K分辨率直屏,采用全球最窄的1.15mm四等边设计,配合金属中…

2025-11-13

荣耀500系列全渠道预约开启 2亿像素主摄+8000mAh大电池成亮点
影像方面,荣耀500系列可能全系标配2亿像素主摄,采用1/1.4英寸大底传感器,并引入雅顾影像调校技术。其中,Pro版或加入潜望式长焦镜头,支持高倍率光学变焦。 续航方面,荣耀500系列预计内置一块高达800…

2025-11-13

京东11.11手机销售成绩亮眼 鸿蒙以旧换新新品AI手机全线飘红
11月11日24点,京东11.11迎来圆满收官。超级供应链上的京东11.11,为消费者带来了“又好又便宜”的商品和服务,手机产品销量增长显著。数据显示,10月9日20点至11月11日24点,成交额破亿的手机单…

2025-11-12

OPPO Reno 15系列11月17日发布,首发“出圈实况拼图”功能,开启影像创作新体验
【CNMO科技消息】11月12日,OPPO首席产品官刘作虎发文称,实况照片是这个时代移动影像最动人的发明之一,并宣布OPPO Reno15系列将首发“出圈实况拼图”功能。 据CNMO了解,OPPO Reno…

2025-11-12

荣耀GT2系列来袭:9000mAh大电池搭配骁龙强芯,性能续航双升级
【CNMO科技消息】11月12日,有数码博主爆料称,荣耀新款性能机GT2将搭载9000mAh超大电池和骁龙8至尊版移动平台。作为参考,现款荣耀GT Pro首批搭载了高通骁龙8至尊领先版移动平台,配合LPDD…

2025-11-12

2025年Q3中国平板市场双高峰助力增长 苹果线上销量份额居首
11月10号消息,根据洛图科技发布的《中国智能平板零售市场月度追踪》报告数据显示,2025年第三季度,中国消费级智能平板(平板电脑)市场的全渠道销量为796万台,同比增长11.6%。暑期消费旺季与开学季形成了…

2025-11-12