数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

哥大博士突破机器人交互瓶颈:唇部同步技术让机器人脸告别“面瘫” 跨11国语言

2026-02-10来源:快讯编辑:瑞雪

在人与人的交流中,我们的目光常常聚焦于对方的眼睛,这不仅是情感传递的窗口,更是理解彼此意图的重要途径。然而,当环境变得嘈杂,视线便不自觉地转向嘴唇,试图通过唇形变化捕捉言语中的微妙信息。这种自然的交流方式,却成为当前人形机器人研发中的一大挑战——如何让机器人的面部表情,尤其是唇部动作,更加自然流畅,成为跨越“恐怖谷效应”的关键。

哥伦比亚大学博士胡宇航创立的首形科技,正致力于破解这一难题。这家初创公司不走寻常路,将研发重心放在赋予机器人面部情绪表达能力上,而非追求运动或操作能力的极致。这一策略成效显著,不仅赢得了多轮融资,更在社交媒体和市场上引发广泛关注。近日,胡宇航团队的研究成果登上《科学·机器人学》封面,展示了其研发的Emo面部机器人如何实现与语音、歌曲同步的唇部运动,标志着人脸机器人领域的一大突破。

胡宇航指出,嘴唇是面部动作最丰富的部位,其运动复杂性远超想象。不同于眉毛等单一方向运动的面部特征,嘴唇由多个肌肉群驱动,运动过程中频繁接触与分离,对时间精度极为敏感,同时承载语言、情感与社交信号。这使得嘴唇运动的建模成为一项高维、非线性、强闭环的生成式形变问题,挑战重重。

面对如此复杂的任务,如何客观衡量机器人嘴唇运动的“真实性”成为关键。胡宇航团队提出创新方法,利用合成参考视频作为理想同步基准,在VAE编码器的潜空间中计算机器人嘴唇运动与参考视频之间的距离,从而刻画整体嘴型动态与时序结构的偏差。这一方法避免了依赖易受噪声干扰的二维关键点,为连续语音与多语言场景下的音频-视觉同步误差评估提供了客观度量标准。

传统机器人嘴唇同步方法主要依赖手工预定义的运动规则和固定的音素-视位映射表,存在明显局限。同一音素的发声速度因说话人、场景或情绪而异,多语言、歌唱或方言等场景下基于音素设计规则需投入巨大手工工作量,且机器人硬件升级时所有动作几乎需重新编排。这种方法隐含音素与嘴型稳定一对一映射的假设,与真实人类发音机制不符,导致生成嘴型序列“正确但僵硬”。

相比之下,数据驱动方法能够从真实人类与机器人发音数据中学习复杂统计规律与隐含约束,突破规则方法在泛化性、可扩展性和自然性上的瓶颈。胡宇航团队设计的两阶段“自监督学习系统”正是这一思路的体现:第一阶段机器人“照镜子”建立自我模型,明确自身硬件与软体结构下可实现的运动;第二阶段观看人类视频学习嘴唇运动规律,并通过自我模型将这些规律投射到自身可执行的动作空间中。

实验结果显示,该系统能在11种语言中实现自然的嘴唇同步,包括英语、法语、日语、韩语等。这一“跨语言”能力源于系统学习的是人类发音过程中更底层的肌肉运动模式,而非具体语言或音素。在两阶段自监督框架下,模型捕捉声音节奏与嘴唇动作之间跨越语言边界的共性规律,如张合节律、闭合-释放结构等,从而适应多种语言、语速和说话风格。

尽管成果显著,系统仍面临技术挑战,尤其是硬辅音(如/b/、/p/、/m/、/w/)的处理。这些音素发音速度快,涉及多重约束条件,如/b/、/p/、/m/需在极短时间内完成“闭合—保持—释放”动作,/w/则要求双唇闭拢、前突形成圆形,同时配合口腔形状连续变化。模型需在毫秒级时间精度下协调多个高度耦合的自由度,应对软体接触、非线性阻尼等物理因素,难度极高。

当前方法在极端语音场景下表现欠佳,如语速极快、多人同时说话、歌唱颤音等。胡宇航认为,这反映了方法的本质边界,即模型主要学习典型对话语境下声学时序与嘴唇运动之间的关系。然而,这些失效案例也为未来研究指明了方向,随着训练数据丰富和模型能力提升,边界场景处理能力有望逐步改善。

当被问及技术是否会从唇部动作扩展到整个面部表情系统时,胡宇航给出肯定回答。他表示,团队最终目标是实现完整的类人交互,协调唇部动作与眼神、眉毛等其他面部要素,形成统一而细腻的情感表达。这不仅是技术上的自然延伸,更是对人机交互本质的深度探索。当机器人能够用整张脸来表达和理解情绪时,它与人类的关系将发生更深刻的转变。

苹果将推平价MacBook:首款iPhone处理器量产机型,年出货量或超550万台
IT之家 2 月 9 日消息,消息人士 yeux1122 昨天在 Naver 博客发文,透露苹果平价款 MacBook 的详细规格、出货数量。据介绍,这款笔记本将是首款采用 iPhone 处理器的量产 Ma…

2026-02-10

SpaceX拟发射百万卫星 借太阳能打造AI数据中心开启新布局
据美国联邦通信委员会备案文件显示,埃隆・马斯克旗下的SpaceX计划发射由 100万颗卫星组成的卫星星座,这些卫星将绕地运行,并利用太阳能为人工智能数据中心提供电力。 SpaceX的这一申请,在很大程度上…

2026-02-10

苹果新品密集来袭!未来几周iPhone iPad Mac齐上新 科技盛宴将启
就在昨天(2 月 8 日),马克 · 古尔曼揭幕了苹果今年春季的新品攻势,iPhone、iPad、Mac 三大核心产品线均有上新大动作。 除了iPhone,iPad 产品线的更新也已进入倒计时,IT之家小…

2026-02-10

亲民定位引关注!iPhone 17e延续刘海屏,或维持4499元起售价
影像部分,根据爆料,预计将保留前代的配置,依旧是4800万像素主摄,但得益于处理器的提升,在影像计算能力上也会有所升级,因此最终的成像效果相信会有一定的优化。 当然,作为一款亲民机型,最让消费者关注的,还得…

2026-02-10

小红书技术团队研发AI新突破:OpenStoryline对话剪辑,未来或开源共享
IT之家 2 月 9 日消息,据《科创板日报》今天报道,小红书技术团队正在研发视频剪辑类 AI 产品 OpenStoryline,版本号1.0.0。 据介绍,这款产品定位“AI 智能体”,最大的亮点就是“对…

2026-02-10

字节跳动Seedance 2.0:AI视频生成新突破,重塑行业未来挑战并存
Seedance2.0带来的变革远不止于生成一段视频这么简单,以它为首的AI视频生成模型正在深层影响传统影视工作。技术是一把双刃剑,Seedance 2.0在展示中国AI实力的同时,也迫使我们思考如何建立…

2026-02-10

字节跳动Seedance 2.0:AI视频生成新突破,重塑行业与挑战并存
Seedance2.0带来的变革远不止于生成一段视频这么简单,以它为首的AI视频生成模型正在深层影响传统影视工作。技术是一把双刃剑,Seedance 2.0在展示中国AI实力的同时,也迫使我们思考如何建立…

2026-02-10

苹果战略转向:CarPlay将开放第三方语音AI,用户驾车交互体验升级
用户目前已可在iPhone上使用AI应用,并通过车载免提功能进行对话,但体验不够稳定,且运行在CarPlay体系之外。苹果还推出了该平台的高端版本CarPlay Ultra,支持驾驶员通过苹果软件直接控制…

2026-02-10