数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

OpenAI推出GPT-RealTime语音模型,升级功能并降价,语音大战再升级

2025-08-31来源:ITBEAR编辑:瑞雪

在AI技术日新月异的今天,OpenAI再次引领潮流,于近日凌晨正式推出了专为开发人员设计的语音转语音模型——GPT-RealTime。与此同时,OpenAI还对其API功能进行了全面升级,新增了远程MCP服务器支持、图像输入功能以及SIP电话呼叫支持。

据OpenAI官方介绍,GPT-RealTime是其迄今为止最先进的语音合成模型,该模型在遵循复杂指令、精确调用工具以及生成自然、富有表现力的语音方面取得了显著进步。GPT-RealTime不仅能够流畅地朗读重复的字母和数字,还能无缝切换语言,甚至能够捕捉到笑声等非语言信号,为用户带来更加真实、生动的对话体验。

除了技术上的突破,OpenAI还为用户带来了两个全新的语音选项——Cedar和Marin,这两个语音将在Realtime API中独家提供,为用户带来更多样化的选择。

在定价方面,OpenAI也展现出了极大的诚意。通用版Realtime API和全新的GPT-RealTime模型即日起向所有开发者开放。GPT-RealTime的定价策略为每百万token音频输入32美元,缓存输入每百万token仅需0.4美元,而每百万token音频输出的价格为64美元。相较于之前的gpt-4o-realtime-preview版本,GPT-RealTime的价格下调了20%,这无疑将吸引更多开发者加入到GPT-RealTime的应用开发中。

OpenAI此次还增加了对对话上下文的细粒度控制,允许开发者设置智能token限制,并一次截断多个回合,这一改进将显著降低长会话的成本,为开发者提供更加灵活、高效的开发环境。

自去年10月OpenAI发布Realtime API公开测试版以来,已有数千名开发者使用该API并提出了宝贵的建议。此次GPT-RealTime的推出,无疑是对这些开发者反馈的积极回应。

然而,尽管GPT-RealTime受到了广泛关注和期待,但也有一些开发者对其表现提出了质疑。有用户认为,虽然GPT-RealTime在语音合成方面取得了显著进步,但其声音仍然带有一定的机械感,且旧的语音角色在表现力上只是略有提升。

为了提升GPT-RealTime的性能,OpenAI在音频质量、理解用户指令以及遵循指令等方面进行了大量改进。GPT-RealTime能够产出更自然的高质量语音,并能遵循细粒度的指令,如“快速专业地说话”或“用法国口音富有同情心地说话”。同时,该模型还能捕捉笑声等非语言线索,在句子中切换语言,并调整语气,为用户提供更加愉悦的对话体验。

在构建语音转语音应用时,开发者通常需要向模型提供一系列行为指令。OpenAI此次专注于改进模型对这些指令的遵循程度,使得即使是微小的指令也能为模型传递更多信息。这一改进将使得GPT-RealTime在处理复杂的多步骤请求时更加得心应手。

OpenAI还改进了异步函数调用功能。长时间运行的函数调用将不再中断会话流程,模型可以在等待结果时继续流畅地对话。这一功能的提升将使得GPT-RealTime在处理需要等待外部响应的场景时更加自然、流畅。

与传统将语音转文本和文本转语音的多模型链式流程不同,Realtime API通过单个模型和API直接处理和生成音频。这一创新的设计减少了延迟,保留了语音中的细微差别,并使得其响应更加自然、富有表现力。同时,Realtime API还新增了远程MCP服务器支持、图像输入功能以及SIP电话呼叫支持等实用功能,为开发者提供了更加便捷、高效的开发体验。

为了防止实时语音对话被滥用,Realtime API包含了多层安全防护和缓解措施。OpenAI对Realtime API会话采用主动分类器进行监控,一旦检测到有害内容,将立即中止对话。开发者还可以使用Agents SDK添加自己的额外安全防护措施,确保对话的安全性和合规性。

SK海力士新DDR5芯片“X021”亮相:或适配Intel未来处理器,原生频率达7200MT/s
快科技10月22日消息,SK海力士的全新DDR5内存芯片近日在网络上出现,据称代号为“X021”,并带有新的零件编码“AKBD”。 根据unikoshardware的说法,芯片上的“X021”标记表明它是第二…

2025-10-22

魔方网表,以技术为本,坚定的长期主义者
全球数字化的汹涌浪潮推着各行各业不断向前,商业世界正在以前所未有的速度与频率经历巨变。对此,企业如何快速有效地在日益复杂的市场环境下,抓住自身的发展机遇,是各行各业的急需解答的难题,而数字化转型又成为其中的必修之课。然而,对很多企业来说,快速变化的业

2025-10-22

售价13000元!三星Galaxy XR头显发布 直面苹果Vision Pro高端之争
【CNMO科技消息】10月21日,三星正式发布了其首款混合现实头戴设备——GalaxyXR,官方售价定为1799.99美元(约合人民币13000元),直接瞄准了苹果Vision Pro的高端市场。借助头显的…

2025-10-22

性能与美学的双重盛宴:iQOO 15的自我修养与突破
前面我们详细聊过,它把一块自研电竞芯片Q3塞进机身,像给手机装上一块真正的“独显”,再辅以双轴马达、对称大师双扬和一位随时陪练的AI军师——这一次,性能旗舰的终点不再是冷冰冰的跑分,而是指尖、耳朵,甚至心脏都…

2025-10-21

国家广电总局首颁“便捷看电视”认证,认准标志选电视享便捷观影体验
IT之家 10 月 20日消息,国家广播电视总局今日宣布,国家广播电视总局广播电视规划院为首款符合认证标准的智能电视机颁发“便捷看电视”认证证书。这款率先通过认证的产品由康佳研发打造,即将正式上市销售。 作…

2025-10-21

2025上半年全球智能眼镜出货增64.2%,2029年或破4000万台中国增速居首
【环球网科技综合报道】10月21日消息,市场研究机构(IDC)发布报告显示,2025上半年,全球智能眼镜(AI眼镜)市场出货量达406.5万台,同比增长64.2%。 IDC预计,到2029年全球智能眼镜市场出…

2025-10-21

牌面拉满!比亚迪成为多国元首的选择
近年来,我国新能源汽车产业在科技创新驱动下实现跨越式发展,比亚迪作为行业领军企业,技术领先全球瞩目,凭借过硬的技术实力与产品品质,赢得多国元首青睐,成为“中国制造”向“中国智造”转型升级的典型代表,更成为传递中国科技实力的“移动新名片”与“无声外交官

2025-10-21

IDC报告:百度智能云智算服务市场份额第一,GenAI IaaS增速最快
10月21日,国际权威咨询机构IDC发布了《中国智算专业服务市场(2025上半年)跟踪》报告。其中,在智算解决方案实施服务市场中,百度智能云以19.9%的份额位居第一;在GenAI IaaS领域,百度智能云实现近5倍增长,增速位居市场首位。随着大模型及AI应用的爆发,云计算正在以C

2025-10-21

抖音电商持续治理虚假宣传保健功效,清退违规达人4.3万名,违规商家793家
10月20日,抖音电商安全与信任中心发布治理虚假宣传保健功效的进展,公告称多平台反复出现以“健康焦虑”为卖点的功效虚假宣传现象,已成为食品行业的顽疾。据了解,部分不良商家、达人将普通食品包装为“保健品”或“特医食品”,甚至将保健食品夸大为具有医疗功效,损

2025-10-21