数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

多模态视觉语言测评:Gemini-3-pro登顶 国内多款大模型表现亮眼

2025-12-31来源:互联网编辑:瑞雪

近日,SuperCLUE-VLM多模态视觉语言基准测评12月总榜正式揭晓,全球多款主流大模型在基础认知、视觉推理、视觉应用三大核心维度展开激烈角逐,最终谷歌Gemini-3-pro以绝对优势登顶榜首,国内多款模型凭借技术突破跻身前列,展现出中国人工智能领域的强劲实力。

谷歌Gemini-3-pro以83.64分的总成绩领跑全场,其在三项细分指标中均表现卓越:基础认知得分89.01分,视觉推理82.82分,视觉应用79.09分,三项数据均远超其他竞品。这一成绩不仅巩固了谷歌在多模态领域的领先地位,也为行业树立了新的技术标杆。

国内阵营中,商汤科技SenseNova V6.5 Pro以75.35分位居第二,成为榜单中排名最高的国产模型。字节跳动旗下两款模型表现亮眼:豆包大模型以73.15分跻身前三,其视觉版在基础认知环节得分82.70分,甚至超越部分国际竞品,仅在视觉推理环节稍显不足;另一款模型则凭借均衡表现稳居前列。百度ERNIE-5.0-Preview、阿里巴巴Qwen3-vl等模型也成功进入前五,其中Qwen3-vl作为榜单中首个开源且总分超70分的模型,为开源社区贡献了重要技术资产。

国际头部模型在此次测评中表现分化。Anthropic的Claude-opus-4-5以71.44分位列第六,而OpenAI的GPT-5.2(high)仅获69.16分,排名相对靠后。这一结果反映出,尽管国际巨头在通用人工智能领域占据先发优势,但国内模型通过针对性优化和垂直场景深耕,正在逐步缩小技术差距。

据测评机构介绍,本次评估从基础认知能力、复杂视觉推理、实际应用场景适配性三个维度展开,覆盖图像理解、逻辑推断、跨模态交互等关键技术指标。评测数据显示,国内模型在中文语境下的语义理解、文化相关视觉内容处理等方面表现突出,而国际模型则在多语言支持、通用场景泛化能力上保持优势。随着技术迭代加速,多模态大模型正从实验室走向实际应用,在医疗、教育、工业检测等领域展现出巨大潜力。

HarmonyOS 6新功能来袭,解锁生活小确幸,这份“快乐秘籍”别错过
今天看到华为发布了HarmonyOS功能推荐,一整个哇塞,全部都是超戳我的超好用功能。特别是“快乐心法”板块上榜的AI语音互动主题、小艺方言自由说、小艺时光机和云空间云图库,我恰好都用过,现在我就和大家聊聊,…

2025-12-31

石头科技:以技术创新重塑智能清洁体验,引领行业迈向高精度智能化新高度
这种以用户需求为导向的技术创新模式,正在引发行业连锁反应,促使多家头部企业加大在环境感知、人机交互等领域的研发投入,推动整个智能清洁产业链向高精度、高智能化方向升级。石头科技通过构建“基础研究-技术转化-场…

2025-12-31

搜狐教育盛典郎永淳谈AI时代:高考未考能力或是未来竞争关键
2025搜狐教育盛典,搜狐视频关注流知名播主,DR-LANG创始人、郎臻选创始人、知名主持人郎永淳发表演讲,认为我们到社会当中需要去整合资源,今天我们需要获取所谓的功成名就,我们整合资源的能力如果特别欠缺的…

2025-12-31

Rtings测试引热议:OLED电视可靠性或被低估,但选电视仍需综合考量
从维修角度而言,液晶电视的成本应该比OLED电视低,毕竟背光系统、导光板等可以更换维修,而OLED电视如果面板出现了问题,就只能更换屏幕了,大家都知道OLED电视换屏的价格有多夸张…… 无独有偶的是,最近拿O…

2025-12-31

荣耀WIN评测:10000mAh大电池加持 续航与性能释放双双登顶!
凭借这一核心优势,荣耀WIN的续航能力普遍领先同类产品40%以上;若对比早年的骁龙8 Gen1机型,续航提升更是达到了惊人的3至4倍。 荣耀WIN的主摄和长焦都是原生5000万像素,夜景拍摄时为了让每个像素…

2025-12-31

中昊芯英第二代7nm TPU将出货 性能直指NVIDIA H100 能效或降30%以上
快科技12月30日消息,据报道,中昊芯英创始人兼CEO杨龚轶凡在接受采访时表示,公司第二代7nmTPU芯片已成功回片并进入测试阶段,计划于2026年二季度正式出货。 爆料信息显示,中昊芯英第二代TPU主要面…

2025-12-31

鸿蒙6年终大放送!这些宝藏功能助你高效生活,速来领取福利
不知道大家是不是跟我一样,手机里存了几千张照片,其中有不少雷同的照片要么有些路人、杂物,要么缺点氛围感,除了偶尔翻翻也就是在那“吃灰”,现在唤醒小艺修图智能体,只要向小艺简单描述修图需求,就能完成复杂P图,如…

2025-12-31