在人工智能助手的发展历程中,从Siri的语音唤醒到如今大模型的复杂交互,技术的进步不断刷新着人们对智能助手的期待。如今,用户不再满足于“一问一答”的简单对话模式,而是希望AI助手能够像真人一样,实现流畅、主动的交流,具备边听、边看、边思考、边回答的能力。然而,当前大多数AI助手仍停留在被动响应阶段,难以主动感知环境变化并及时介入,这与人们心目中的理想状态仍有较大差距。
要实现更接近人类的交互体验,AI助手需具备持续感知环境的能力。然而,持续处理音视频流对算力要求极高,云端部署虽能提供充足算力,但会引入延迟问题,并可能带来隐私泄露风险。在此背景下,端侧AI成为一条理想的解决方案。本地运算不仅能保障响应速度,还能从根本上规避数据外泄风险,在机器人、自动驾驶等需要实时决策的场景中尤为重要。不过,如何在算力有限的端侧设备上实现高性能智能,仍是行业面临的共同挑战。
面壁智能作为该领域的探索者之一,专注于提升智能密度,即用更小的参数实现更强的性能。其MiniCPM系列模型以“以小博大”著称,全平台下载量已突破1800万。早在2024年,该系列模型便成功将GPT-4o、GPT-4V级别的核心能力部署到手机、汽车等端侧设备上。近日,面壁智能发布的MiniCPM-o 4.5,进一步推动了端侧全模态交互技术的发展。
MiniCPM-o 4.5是面壁智能在端侧交互方向上的重要升级。该模型首创原生全双工技术,采用端到端的全模态架构,结合全双工多模态实时流机制、主动交互机制和可配置语音建模设计,使参数规模仅为9B的模型在交互体验上实现大幅提升。所谓“全双工”,即模型可同时看、听和说,对话无需轮流进行;而“全模态”则指模型能同时处理视频、音频、文本等多种信息输入,并以文本和语音形式输出回应。这种设计使MiniCPM-o 4.5能在“说话”的同时继续观察和倾听环境变化,并根据新信息实时调整回应策略,更接近人类的真实对话模式。
传统多模态大模型通常只能处理离线静态数据,且在全模态方面往往只能处理文本加单一模态(如视觉或语音)。更关键的是,当模型开始生成回复时,必须先完成整个回应过程,才能重新接收外部信息,类似于“对讲机”式的对话。这种设计在实际使用中会造成诸多不便,例如当画面内容突然变化时,模型无法感知,只能基于旧信息继续描述,甚至可能“胡说八道”。而在智能驾驶场景中,若AI正在播报导航信息,却无法同时感知路况变化,可能错过重要的安全提醒时机。
MiniCPM-o 4.5通过全双工技术架构解决了这一问题。该模型将并行处理的视频流和音频流切成极小的切片,采用脉冲式信息处理方式,使多模态信息能实时交替输入语言模型主干,实现毫秒级时间线上同步所有输入和输出流。这种设计使模型更像是一种伴随态AI,而非简单的聊天机器人。伴随态的优势在于,即使不持续提问,模型也能提供持续反馈,并根据环境变化调整行为,实现即时自由的对话。例如,用户只需一句指令,模型便能对白板画画进行实时描述;在车机场景中,模型可根据用户需求即时反馈和提醒,帮助司机减少左顾右盼的精力,更专注地开车。
市面上虽已有一些模型具备实时对话或可打断的能力,但大多依赖VAD(语音活动检测)等外部工具实现。VAD的作用是检测环境中是否有人在说话,一旦检测到语音信号,系统便强行中断模型输出,重新开始“听→处理→说”的流程。然而,VAD只能检测声音,无法理解声音的内容和意图,可能导致误判或响应滞后。例如,旁边有人咳嗽或电视传来人声,系统可能误判为用户在说话,导致AI莫名其妙地停下来;而用户仅“嗯”一声表示在听,系统也可能将其当作打断信号。VAD的判断存在滞后,需等待一段时间确认没有后续语音后,才会判定说话结束,导致系统响应慢半拍,用户体验不流畅。
与之不同,MiniCPM-o 4.5的感知和判断能力是模型内生的。在持续接收视觉和听觉信息的同时,模型会同步进行语义理解,并高频判断“用户是否正在说话”“自己是否需要说话”,从而根据环境变化实时反应,以最合适的时机和内容回复,避免信息感知与传递的延迟。这一特性可进一步应用于具身智能领域,为机器人提供持续感知的大脑底座。例如,未来机器人可能对微波炉“叮”的声音、敲门声、水龙头漏水等事件具备持续感知力,并在更多场景中提供及时响应与主动服务。
除对话响应能力大幅提升外,MiniCPM-o 4.5在基础能力方面也延续了前代产品的优势,在流式全模态能力、视觉能力和语音能力方面保持同尺寸领先水平。语音交互是本次升级的重点之一。通过深度挖掘海量互联网对话数据、专业级语音录制资源,以及优化端到端模型结构,MiniCPM-o 4.5在音色自然度、语调丰富性、语音稳定性等方面显著提升,有效解决了长语音合成中常见的错字率高、效果不稳定等问题。即使生成大于1分钟的长语音,该模型仍能保持较好的稳定性、一致性与流畅感。它还支持推理阶段的声音克隆,仅需系统提示词和几秒钟的语音样本,即可模拟特定人物的语音风格与表达习惯。
为推动端侧智能的落地应用,面壁智能还透露了将在年中发布的基于NVIDIA Jetson系列模组的“松果派”(Pinea Pi)开发板套件。该开发板定位为Agent原生的端侧多模态开发板,旨在让开发者以简单方式快速开发端侧智能硬件,将设备定义权交到用户和开发者手中。目前,开发者完成AI智能硬件开发需面对复杂技术栈,开发门槛较高,而市面上的开发板大多为裸板,外设需自行购买、适配驱动、手动搭建多模态Pipeline。松果派则提供“开箱即用”的完整解决方案,预装完整的多模态AI开发环境,包含摄像头、麦克风等必要外设,以及优化后的驱动程序和中间件,降低开发难度。
从商业模式角度看,松果派采用类似早期香橙派、树莓派的策略,通过标准化、开放的硬件形态教育市场,吸引开发者加入生态。除硬件外,面壁智能还将配套推出高效推理框架和演示系统,未来两者均将开源,为开发者提供完整的开发工具链。
面壁智能的选择源于对技术发展趋势的判断。在创始人刘知远看来,端侧AI并非短期押注某个产品形态,而是信息革命向智能革命演进过程中必然出现的一层结构。他提出“未来计算三分天下”的观点:超算用于科研探索,云计算支撑通用服务,而端侧计算将成为体量最大、最贴近人类日常的智能形态。届时,“超智-云智-端智”可能呈现金字塔式分布结构,端侧的核心价值不是算力,而是贴近现实。尽管单个端侧设备的智能不一定最强,但从体量分配来看,端侧智能承载的是整个人类社会的日常运转,其规模必将超过超智和云智。
回顾大模型的发展历程,2022年底ChatGPT的发布引发行业爆发期,随后领域内开始争相复现大模型能力,堆参数、租算力成为主流方向。然而,面壁智能从一开始便将重心放在端侧AI上,这是一条明显的“非共识”路径。在刘知远看来,非共识的创新性正是中国创业公司稀缺之处。他认为,有人做了A,不是再复制做A+,而是应与之协同构建共生共荣的生态。无论从投资还是产业发展角度,继续在同一条路径上扎堆、跟风并非明智之举,而应多开拓和创新。
产学研协同是推动技术落地的关键。姚远指出,学术界强调从最前沿探索遥远的可能性,而产业化必须抗住海量数据的检验。因此,如何找到学术界前沿方向与工程可落地的交集,极其考验工程直觉。面壁智能从模型迭代中积累了关键技术技巧与优化策略,并将其持续集成到最新代码库中。例如,MiniCPM-o 4.5版本已全面兼容之前所有版本的技术,说明它们具备高度的可叠加性。
刘知远认为,若将AGI看成一张拼图,最关键的一块未必是高等数学或专业能力,而是具备很强的人类智商水平。因此,全模态的全双工是可能很慢但值得努力的方向,也是通往未来AGI的关键拼图之一。他指出,AI的使命是替代人类完成大量机械、重复的脑力劳动,让人类花更多精力做顶层规划、创新和思考更有意思的事情。过去100多年,人类整体的科学与创新其实在减速,未来唯有依靠AI,让我们重新执掌全人类的知识,进而实现对世界的全面认知。

