数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

GPT-5.4重磅登场:能力效率双提升,开启AI数字员工新时代

2026-03-07来源:快讯编辑:瑞雪

OpenAI再次引爆AI领域,正式推出GPT-5.4,这款被业界称为"全能型选手"的新模型,将推理、编程、计算机原生交互、深度网页搜索和百万级Token上下文处理能力集于一身,且在各项性能指标上均保持领先地位。这一突破性进展,让等待已久的AI社区终于迎来一场"惊喜暴击"。

GPT-5.4最引人注目的创新在于其原生计算机操作能力。这款模型能够通过分析软件界面截图,自主执行鼠标点击、键盘输入等操作,完成发送邮件、创建日历事件、填写表单等复杂任务。在WebArena浏览器任务测试中,GPT-5.4取得67.3%的成功率,在Online-Mind2Web测试中,仅通过截图完成网页操作的成功率高达92.8%。更令人惊叹的是,在OSWorld-Verified桌面操作任务中,其75.0%的成功率已超越人类平均水平(72.4%)。

编程能力方面,GPT-5.4整合了此前最强编程模型GPT-5.3-Codex的核心功能,不仅支持1.5倍速的/fast模式输出,还新增"Playwright (Interactive)"实验性功能。这项技术允许模型在开发网页或应用时,同步进行视觉化调试。例如在开发模拟游戏时,它能同时生成美术资源、编写逻辑代码,并运行自动测试验证游戏状态。在SWE-Bench Pro测试中,GPT-5.4取得57.7%的成绩,延迟较前代更低,复杂前端任务的表现显著提升,生成的界面设计更美观、功能结构更完整。

知识工作领域,GPT-5.4在GDPval基准测试(涵盖44种职业、9个GDP主要贡献行业)中,综合得分达83.0%。在投资银行建模测试中,其平均得分从GPT-5.2的68.4%跃升至87.3%。人类评审在PPT生成测试中,68%的时间更偏好GPT-5.4的作品,认为其视觉效果更佳、版式更丰富、图片运用更合理。该模型还支持1024万像素原图输入,在MMMU-Pro视觉推理测试中准确率达81.2%,文档解析错误率从0.140降至0.109。

效率优化是本次升级的另一大亮点。相比GPT-5.2,GPT-5.4在推理过程中使用的Token数量显著减少,响应速度更快且成本更低。这得益于其引入的工具搜索机制——模型不再需要将所有工具定义塞入提示词,而是先浏览工具清单,需要时再调取具体定义。在MCP Atlas基准测试中,这项技术使总Token使用量降低47%,同时保持同等准确率。

随着GPT-5.4上线,ChatGPT的模型体系同步调整。新模型同步登陆ChatGPT、API和Codex平台,API定价虽较GPT-5.2有所上涨(每百万输入Token从1.75美元升至2.5美元,输出从14美元升至15美元),但任务总成本因Token消耗减少而变化不大。面向复杂任务的Pro版本同步推出,在ChatGPT中命名为GPT-5.4 Thinking,将取代此前的GPT-5.2 Thinking,而GPT-5.2系列将于三个月后正式退役,GPT-5.1系列则将在3月11日退出ChatGPT。

社交媒体上,网友对这款新模型的讨论热度持续攀升。有人戏称,拥有百万token上下文窗口且能原生操作电脑的GPT-5.4,与苹果最新发布的低价笔记本电脑MacBook Neo形成"科技双雄";更有开发者调侃:"我的电脑正在经历存在主义危机!"这些反应折射出AI技术对传统工作方式的深刻影响——当模型能独立完成从界面操作到多轮网页搜索的完整工作流时,人类与数字世界的交互方式正在发生根本性变革。

雷军展望AI时代:工作模式或变,每周3天每天2小时提升生活品质
近日,全国人大代表,小米集团创始人、董事长兼CEO雷军在接受@中国新闻周刊采访时表示,在人工智能时代,或许很多规则将被重写,但同时又会产生很多新的岗位。 雷军建议,大家要用开放的心态,迎接更先进的时代。未来…

2026-03-07

雷军力荐!Xiaomi Tag防丢神器登场,69元起智能定位超实用
BLE版通过蓝牙连接,超出蓝牙范围时,Tag会向附近支持“查找”功能的设备发送加密蓝牙信号,由设备上传位置至云端,实现远程地图定位。UWB版可以搭配小米17 Pro、17 Pro Max、17 Ultra…

2026-03-07

轻便与实力并存:联想moto X70 Air Pro凭AI智慧成2026全能之选
OPPO A6主打便携设计,却难成轻便手机推荐优选:机身轻薄但材质脆弱,无军规认证与高等级防水,日常易磕碰损坏,耐用性不足;AI操控偏向生态联动,全场景指令支持有限,日常便捷操作覆盖不足;无AI播客功能,无…

2026-03-07

抖音副总裁回应AI手机助手安全质疑:欢迎监督,愿提供测试机助调研
李萌娇委员举例称,当下有一种手机AI助手,基本可实现“接管手机”,通过“视觉读屏﹢模拟点击”,直接调用手机底层系统权限,连续操作数十个界面,在用户缺乏感知的情况下自主执行多个关键操作,甚至一封恶意邮件就能“…

2026-03-07

三星Galaxy S26 Ultra首发ALoP镜头:夜景人像提升 微距能力有妥协
IT之家 3 月 7 日消息,科技媒体 Android Authority 今天(3 月 7 日)发布博文,报道称三星 Galaxy S26Ultra手机的 5 倍长焦镜头启用 ALoP(棱镜上置镜头)技术…

2026-03-07