数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

苹果联合特拉维夫大学推PCG技术:AI语音生成效率质量双提升

2026-02-03来源:快讯编辑:瑞雪

科技领域近日迎来一项重要突破,苹果公司与特拉维夫大学联合研发的“原则性粗粒度”(PCG)语音生成技术,为AI文本转语音(TTS)领域带来了新的解决方案。这项技术通过优化验证机制,成功突破了传统模型在生成速度上的瓶颈。

当前主流的TTS技术多采用自回归模型,其工作原理类似于“逐字拼写”——系统基于已生成的语音片段预测下一个音素。这种模式要求预测结果必须与预设值完全匹配,导致许多听觉效果相近但未完全吻合的输出被系统拒绝。这种严苛的验证标准虽然保证了准确性,却显著降低了整体生成效率。

研究团队提出的PCG技术通过引入“声学相似组”概念,重构了验证逻辑。该技术不再将每个语音单元视为独立个体,而是将具有相似听觉效果的音素归为同一组别。只要预测结果落在正确组别范围内,系统即判定为有效输出。这种“范围验证”机制相比传统的“单点验证”,在保持音质的同时大幅提升了处理速度。

在技术实现层面,PCG采用双模型协作架构:轻量级模型负责快速生成候选音素,大型“裁判模型”则负责质量把控。当候选音素属于正确声学组时,系统直接采用该结果。这种分工模式既保留了小模型的高效特性,又通过大模型确保了输出质量,实现了效率与准确性的平衡。

实验数据显示,应用PCG技术后,语音生成速度提升约40%,而音质评分仍保持在4.09分(满分5分)的高水平。在极端测试中,研究人员将91.4%的语音单元替换为同组其他音素,结果仅导致词错率微增0.007,说话人相似度下降0.027,这些变化几乎无法被人类听觉感知。

作为推理阶段的优化方案,PCG技术无需重新训练现有模型即可直接部署,仅需约37MB的额外内存用于存储声学相似组数据。这种轻量化特性使其具备广泛的适用性,为语音合成技术的实际应用开辟了新路径。

苹果2026密集推新:Mac产品线革新、iPhone探索新形态,布局未来十年
一边是主力产品的大更新,除了折叠形态的 iPhone Fold 逼近,搭载 M6 并更新模具的 MacBook Pro、搭载 A系列芯片重启的平价款 MacBook,以及 Pro 起来的 iPad mi…

2026-02-03

芒米MANGMI Pocket Max安卓掌机开箱:骁龙865加持,游戏体验如何?
IT之家 2 月 2 日消息,芒米科技旗下 MANGMI Pocket Max 安卓掌机于今天在京东开启预约,2 月 6日正式开售,该机配备一块 7 英寸 1080P 144Hz AMOLED 面板,匹配骁…

2026-02-03