数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

京东全球首开源全栈实时视频视觉语言交互模型JoyAI-VL-Interaction 赋能多场景AI助手

2026-06-22来源:快讯编辑:瑞雪

京东近日宣布正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction,并同步获得vLLM-Omni框架的day-0原生支持。这一突破性技术标志着大模型应用从传统的"问答式交互"向"主动感知型交互"迈出关键一步,开发者可基于该框架快速构建具备环境感知能力的智能助手。

该模型实现了三大核心技术创新:首先突破传统模型的被动响应模式,通过持续视频流分析实现自主决策,无需等待用户提问即可判断交互时机;其次在实时性方面取得突破,针对安防预警、实时翻译等场景,可在画面变化瞬间完成响应,彻底改变传统视频分析"事后处理"的局限;第三创新设计了智能体委托机制,当遇到复杂任务时,前台模型保持环境观察,后台模型同步处理代码生成、工具调用等任务,形成高效协作的"双脑"架构。

技术架构层面,该系统支持多模态输入输出,包括摄像头、直播流、监控视频等视频源,以及语音交互、可视化界面等交互方式。其模块化设计允许开发者自由替换ASR语音识别、TTS语音合成、后台模型等组件,甚至可接入自定义业务系统。这种高度灵活性使其既能用于学术研究,也可快速适配安防监控、老人看护、直播解说、电商导购等20余个垂直场景。

在真实场景测试中,该模型展现出显著优势。针对监控预警、实时计数、多语言翻译等58个流式交互场景的盲测显示,与豆包视频通话助手相比取得77.6%的胜率,较Gemini视频通话助手更达到87.9%的胜率。测试特别强化了视觉触发响应和实时性两个维度,验证了模型在动态环境中的可靠性和效率。

目前,京东已完整开源模型代码、训练框架及部署方案,并提供vLLM部署工具包。开发者可基于现有组件快速搭建个性化AI助手,例如将语音服务替换为科大讯飞方案,或接入自研的Agent系统。这种开放生态策略有望推动实时交互技术在更多领域的创新应用,特别是在需要人机协同的复杂场景中展现价值。

120元捡漏骁龙845+10G内存双屏机!vivo NEX二手实测:划痕多但续航稳
像vivo NEX双屏版很容易出现主屏或副屏损坏的情况,我买的这台是副屏坏了,主屏正常。 我买的这台是主屏完好,开价155元,被我一刀砍到120元包邮(实付119.9是蹦出个0.1的支付优惠),承诺收货1小时…

2026-06-22

2026年太阳能逆变器怎么选?从工艺到售后,四家工厂横向测评来了
A:建议重点看三个硬指标:一看工厂有没有自己的SMT贴片线和完整组装线,有全流程制造能力的工厂比纯组装厂在品控和交付上更可靠;二看认证覆盖度,ISO9001加上CE、TUV等产品认证是基本门槛,出口型采购还…

2026-06-22

京东全球首推全栈开源实时视频交互模型JoyAI-VL-Interaction 赋能开发者打造实景AI助手
官方表示,它让大模型从“一问一答”走向“边看边说”,开发者基于这套框架,可以快速搭建能持续观察、自主判断、即时响应的实景 AI 助手。 实时响应,而非事后总结:传统视频理解更多是上传完整视频后再分析,但在安…

2026-06-22

上海超硅突破技术瓶颈 12英寸方形硅片量产交付助力AI芯片升级
上海超硅成立了涵盖晶体装备、晶体工艺、加工装备、加工工艺、质量控制、供应链管理等的专门小组,开发了方形硅片的特殊工艺流程,突破了相关技术瓶颈,顺利推出了新一代方形硅片,成功通过了客户验证并大规模量产供应,成为…

2026-06-22

小巧便携散热佳,性能强劲表现优,朗科US9固态U盘评测来袭
▼室温在26℃左右,跑持续读写测试的时候,移动固态U盘表面的温度非常均衡,金属外壳的散热效果还是非常好的,最高温度在45.1℃,表现不错,摸起来微微烫。 朗科这款US9固态U盘的整体表现真不错,锌合金的全金…

2026-06-22