数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

Soul开源SoulX-FlashTalk:14B模型助力数字人亚秒级生成与全场景应用

2026-05-21来源:天脉网编辑:瑞雪

近日,Soul App旗下的AI团队Soul AI Lab宣布正式开源其自主研发的实时数字人生成模型——SoulX-FlashTalk。这一模型凭借140亿参数的强大算力,在生成速度、画面流畅度以及视频稳定性方面实现了显著突破,为行业提供了可商业化的实时生成式数字人解决方案。该模型的推出,不仅解决了传统数字人技术在实时交互中的延迟问题,还为电商直播、短视频制作、AI教育等多个领域带来了新的可能性。

SoulX-FlashTalk的核心优势在于其超低的生成延迟和高效的画面输出能力。据测试,该模型的首帧视频输出延迟仅为0.87秒,达到了亚秒级水平,同时支持每秒32帧的高帧率输出。这一性能使得数字人在视频通话、直播弹幕互动以及智能客服等场景中能够实现即时响应,彻底消除了传统大模型生成过程中的滞后感。模型搭载的14B超大DiT架构经过深度优化,推理吞吐量远超直播所需的25fps标准,确保了画面的丝滑流畅。

针对数字人长视频生成中常见的面部不一致和画质下降问题,SoulX-FlashTalk引入了独家自纠正双向蒸馏技术。该技术通过多步回溯自纠正机制,实时修正长序列生成中的误差,实现了无感纠错且画质无损。同时,模型保留了双向注意力机制,使得每一帧的生成都能参考过去和未来的上下文信息,从而有效抑制身份漂移,确保数字人在超长直播中的口型、面部细节以及背景保持高度一致。该模型还突破了传统数字人仅面部对口型的局限,支持音频驱动的全身动作生成,能够精准呈现手部细节,动作灵动且身份一致性高达99.22%。

在技术实现上,SoulX-FlashTalk采用了两阶段训练策略以平衡生成质量与速度。第一阶段为延迟感知时空适配,通过动态长宽比分桶微调优化模型性能;第二阶段为自纠正双向蒸馏,利用DMD框架压缩采样步数并移除CFG,同时结合多步回溯自纠正与随机截断策略,高效优化显存使用。团队还打造了全栈加速引擎,通过混合序列并行、算子级优化以及3D VAE并行化等技术,大幅提升了推理速度,最终实现了亚秒级延迟。这一系列技术创新使得SoulX-FlashTalk在保持高效运行的同时,能够生成高质量的数字人视频。

在TalkBench-Short与TalkBench-Long数据集的测试中,SoulX-FlashTalk的表现全面领先行业主流模型。在短视频评测中,其ASE评分达到3.51,IQA评分达到4.79,口型同步Sync-C为1.47;在长视频生成中,Sync-C评分提升至1.61,且长短视频均能稳定维持32fps的高帧率输出。基于这些优异性能,SoulX-FlashTalk可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、NPC交互以及AI客服等场景,有效解决传统数字人直播中画质模糊、口型错位等问题,同时降低运营成本。

值得一提的是,此次开源并非Soul AI Lab的首次尝试。此前,该团队曾开源语音合成模型SoulX-Podcast,并在HuggingFace TTS趋势榜上登顶,GitHub星标数超过3100。此次SoulX-FlashTalk的开源,标志着Soul在AI技术开源领域迈入了新的阶段。未来,Soul AI Lab将继续推进技术开源,与全球开发者共同构建AI+社交的生态系统。

苹果Apple Music:AI音乐播放占比低,接受入驻但需透明标注防误导
月 21 日消息,苹果 Apple Music 发布公开信,重申不会封杀 AI 生成音乐,但要求内容清晰标注,且不得误导用户或冒充创作者。IT之家援引博文介绍,苹果公司表示,AI 音乐在 Apple Mus…

2026-05-21

谷歌携手三星及眼镜品牌发力AI眼镜赛道 音频款今秋将至 显示款蓄势待发
谷歌携手三星与传统眼镜品牌Gentle Monster、Warby Parker,展示了即将上市的AI智能眼镜。 谷歌将智能眼镜分为两条产品线,分别为音频眼镜和显示眼镜。更新后的大模型与Agent功能,也将作…

2026-05-21

商汤科技十连冠铸就视觉AI传奇,技术赋能产业开启高质量发展新篇
作为中国计算机视觉领域的开创者,商汤科技已率先完成 CV 2.0 技术升级及商业布局,并实现稳健盈利,市场话语权与行业影响力持续增强。进入2026年,海外视觉AI业务和客户加速与多模态大模型融合,增长动能持…

2026-05-21

机器人ETF汇添富(159213)午盘收跌0.90% 成交额超六千万 重仓股表现分化
来源:新浪基金∞工作室 5月20日,截止午间收盘,机器人ETF汇添富(159213)跌0.90%,报1.428元,成交额6470.78万元。机器人ETF汇添富(159213)重仓股方面,科大讯飞截止午盘跌2.…

2026-05-21

机器人ETF鹏华159278午间走低 跌1.41% 成交额超7500万 重仓股涨跌互现
来源:新浪基金∞工作室 5月20日,截止午间收盘,机器人ETF鹏华(159278)跌1.41%,报1.186元,成交额7570.28万元。机器人ETF鹏华(159278)重仓股方面,绿的谐波截止午盘跌1.43…

2026-05-21