数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

谷歌发布Gemini Embedding 2模型:支持多模态数据,简化流程提升检索精度

2026-03-11来源:快讯编辑:瑞雪

谷歌近日宣布推出其首个原生多模态嵌入模型——Gemini Embedding 2,标志着人工智能在跨模态数据处理领域迈出重要一步。该模型突破了传统嵌入模型仅支持文本的局限,能够同时处理文本、图像、视频、音频和文档五种数据类型,并将它们映射到统一的向量空间中,为机器理解复杂信息提供了全新工具。

与生成式AI模型如Gemini 3不同,嵌入模型的核心功能在于数据理解而非内容创作。Gemini Embedding 2通过将非结构化数据转换为数学向量形式,使计算机能够精准捕捉语义关系。例如,在法律诉讼场景中,该模型可同时分析合同文本、监控视频和音频证据,快速定位关键信息。测试数据显示,在处理数百万条记录时,多模态嵌入技术使检索精度提升显著,尤其在图像和视频搜索方面表现突出。

该模型支持100种语言的语义意图识别,并设定了明确的数据处理规范:文本输入上限为8192个token,图像支持PNG/JPEG格式且单次最多处理6张,视频输入时长限制在120秒内(支持MP4/MOV格式),音频可直接处理无需转录,文档则支持最多6页的PDF文件。这种设计既保证了处理效率,又覆盖了主流应用场景的需求。

谷歌工程师透露,Gemini Embedding 2已通过Gemini API和Vertex AI平台开放预览服务。现有用户可在保持gemini-embedding-001文本模型使用的同时,体验新模型的多模态能力。技术文档显示,该模型特别优化了"图像+文本"混合输入场景,能够自动分析不同媒体间的关联性,为智能客服、内容推荐等应用开辟新可能。

行业分析师指出,多模态嵌入技术的成熟将重塑信息检索范式。传统关键词搜索依赖精确匹配,而向量搜索通过语义理解可返回更符合上下文的结果。例如,当用户搜索"蓝色连衣裙"时,新模型不仅能识别商品图片,还能理解描述文字中的材质、款式等细节,甚至关联到穿搭建议视频。这种能力在电商、医疗、教育等领域具有广泛应用前景。

华为鸿蒙手机小艺Claw上线,可处理多项任务还能“养”专属智能体
IT之家 3 月 11 日消息,华为终端 BG 首席执行官何刚今日晒出截图,展示了华为鸿蒙手机上的小艺 Claw。何刚表示:“很惊喜,挺好用的,能帮我干不少事儿!” 从何刚晒出的截图可以看到,小艺 Cla…

2026-03-11

从滞销到脱销:Mac mini因AI“龙虾”逆袭,狂欢背后安全隐忧待解
当“养龙虾”成为新潮流,Mac mini从边缘产品跃升为“AI神器”,这场由技术狂欢点燃的市场异动,既照见了开源智能的潜力,也暴露了普通用户面对新技术时的认知盲区与安全风险。更关键的是,用户不愿将高权限智能体…

2026-03-11

苹果智能家居中枢新动态:MagSafe磁吸、圆形图标界面、AI生态核心入口
月 11 日消息,消息源 Kosutami 今天(3 月 11 日)在 X 平台发布推文,透露苹果智能家居中枢(HomeHub 或叫HomePad)将采用类似 watchOS 的操作界面,并原生支持 Mag…

2026-03-11