数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

智源发布Emu3:图像文本视频大一统,多模态世界新突破!

2024-10-22来源:ITBEAR编辑:瑞雪

智源研究院近期推出了全新的原生多模态世界模型——Emu3,该模型在文本、图像及视频的理解与生成领域实现了显著突破。Emu3的创新之处在于,它仅需基于下一个token的预测,便能高效处理三种模态数据,无需依赖扩散模型或组合方法。

在图像生成方面,Emu3的性能超越了SD-1.5与SDXL模型;在视觉语言理解上,它则优于LlaVA-1.6;而在视频生成领域,Emu3的表现同样出色,超过了OpenSora 1.2。Emu3还具备强大的视觉tokenizer功能,能将视频和图像转换为离散token,与文本tokenizer输出的token共同送入模型处理。

研究表明,通过将复杂的多模态设计简化为token本身,Emu3在大规模训练和推理中展现出了巨大的潜力。目前,Emu3的关键技术和模型已经开源,项目页面也已正式上线。

对于研究人员而言,Emu3提供了一个统一的研究范式,值得深入探索。

大陆电竞显示器销量激增58%,价格却意外下跌,咋回事?
从2023年第一季度开始,这一比例逐季上升,从不到45%增长至2024年第三季度的63%。这一价格变动使得更多消费者能够负担得起电竞显示器,进一步推动了市场的普及和发展。其中,500-999元的价格区间也显示…

2024-10-22

新能源汽车维修遇瓶颈:专业技术人员何处寻?
2024-10-2201:21:38作者:姚立伟随着新能源汽车行业的快速发展,越来越多的消费者开始选择购买电动车作为代步工具。在享受这些车辆带来的便利和环保的同时,许多车主也面临着一个令人头痛的问题:维修困难…

2024-10-22