数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

GPT-5.5实测:从“回答者”到“执行者”,AI工作新范式来了

2026-04-25来源:快讯编辑:瑞雪

OpenAI近日正式推出其最新一代人工智能模型GPT-5.5,这款被定位为“为真实工作场景量身打造”的模型,在任务执行能力上实现了重大突破。与前代产品相比,GPT-5.5不再局限于被动回答问题,而是能够主动规划并完成复杂工作流程,包括信息检索、数据分析、文档生成、软件操作以及多工具协同使用。

在基准测试中,GPT-5.5展现出显著优势。其GDPval指标(基于44种真实职业任务的评估)得分达到84.9%,较GPT-5.4提升1.9个百分点,超越Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。在OSWorld测试(衡量电脑环境操作能力)中,该模型以78.7%的得分领先前代3.7个百分点,证明其具备直接执行多步骤操作的能力,包括界面点击、工具切换等。针对企业级复杂流程的Tau2 Telecom测试显示,GPT-5.5在无需额外调优的情况下取得98.0%的准确率,展现出处理多环节依赖任务的高效性。

编程能力是本次升级的核心亮点之一。在Terminal-Bench 2.0测试中,GPT-5.5取得82.7%的成绩,SWE-Bench Pro测试得分达58.6%,较前代提升显著。官方演示显示,该模型可独立完成从项目搭建到功能实现的完整开发流程:例如使用WebGL进行3D渲染、通过Vite构建项目框架,并整合ArtemisII任务的真实轨道数据。在另一个案例中,GPT-5.5不仅生成了基于Three.js的3D地牢竞技场前端代码,还覆盖了战斗系统、敌人AI等核心模块,仅将角色建模等视觉内容交由第三方工具处理。

知识工作场景的应用拓展同样引人注目。GPT-5.5可自动完成财务建模、市场分析报告生成等任务,其输出的结构化文档可直接用于商业决策。内部测试显示,超过85%的OpenAI员工每周使用该模型辅助工作,覆盖财务、市场、数据科学等多个部门。在创意领域,该模型展现出强大的跨模态能力:根据“设计高端品牌网站”的指令,其生成的HTML文件包含定制字体、响应式布局和动态交互元素;在动画创作测试中,GPT-5.5输出的SVG代码实现了复杂的Unity风格视觉效果,且所有代码均可单文件运行。

效率优化是本次升级的另一重点。尽管实际服务速度与GPT-5.4持平,但GPT-5.5在完成相同Codex任务时消耗的token减少约30%,直接降低了使用成本。其API定价为每百万输入token 5美元、输出30美元,虽较前代翻倍,但OpenAI强调,由于任务完成效率提升,总成本未必增加。安全体系方面,该模型通过了包含网络安全、生物技术等高风险领域的专项验证,并针对近200个真实场景进行了优化调整。

从技术演进路径看,GPT-5.5标志着AI模型从“问答工具”向“执行系统”的转型。自GPT-4o实现多模态统一处理以来,OpenAI持续强化模型的自主判断能力:GPT-5.3重点提升编码稳定性和工具调用自然度,GPT-5.4则优化了跨应用工作流和长任务稳定性。此次升级进一步将模型定位为后台持续运行的协作系统,用户可通过自然语言指令委托完整任务,而非分解为多个子问题。这种转变不仅提升了使用体验,更重新定义了AI在专业领域的应用标准——能否稳定高效地完成全流程工作,成为衡量模型价值的核心指标。

手机续航大革新!REDMI三款10000mAh新机来袭 告别电量焦虑
进入2026年,多家手机品牌开始跟进并推出10000mAh巨量电池。 其中一款机型隶属于REDMI Note 17系列,该机除了拥有10000mAh超大电池,还支持100W闪充技术,并配备了2亿像素大底主摄…

2026-04-24

华为Pura 90 Pro Max深度评测:影像出众设计新,6499元起成热门之选
本次评测我们将以 Pura 90 Pro Max 为核心展开体验,作为华为 Pura系列的最新旗舰,这一次在设计和影像上,还真有一些值得说道的细节—— 虽然这颗 1/1.28 英寸、2 亿像素的 4× 长…

2026-04-24

Perplexity CEO:AI发展强化iPhone地位,个人数据成关键护城河
IT之家查询公开资料,斯里尼瓦斯曾任职于 OpenAI、DeepMind 和 Google Research,致力于通过生成式 AI 打造更优质、更智能的信息检索体验。他强调,这些数据是真正属于用户的个人资…

2026-04-24