数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

小红书开源多模态大模型dots.vlm1,视觉理解与推理能力接近顶尖水平

2025-08-07来源:ITBEAR编辑:瑞雪

小红书,这家以“种草”文化著称的社交平台,近期在AI技术自研领域迈出了重要步伐,连续两个月内发布了三款开源模型,引起了业界的广泛关注。最新亮相的多模态大模型dots.vlm1,凭借其强大的视觉理解和推理能力,展现了接近Gemini 2.5 Pro闭源模型的实力。

在竞争激烈的AI领域,各大科技公司纷纷推出自家模型,OpenAI的Claude升级至4.1版本,谷歌则推出了用于生成游戏世界的Genie 3,引发社区热议。国产模型也不甘示弱,HuggingFace平台上的前十名开源模型中,已有多个来自国内团队。然而,仔细观察这些排名靠前的模型,不难发现,大多数仍为文本模型,缺乏多模态能力。

小红书的人文智能实验室(Humane Intelligence Lab,简称hi lab)近日低调开源了其首个多模态大模型dots.vlm1,为视觉语言模型(VLM)领域带来了新气象。这款模型基于小红书自研的12亿参数NaViT视觉编码器和DeepSeek V3大语言模型构建,不仅在视觉理解和推理任务上表现出色,还保持了纯文本任务中的竞争力。

hi lab此前开源的dots.ocr文档解析模型已在Huggingface平台上获得热榜第七的好成绩,尽管其基础模型参数仅为17亿,但性能却达到了业界领先水平。这一成就显示了hi lab团队在AI技术自研方面的认真态度和强大实力。

dots.vlm1在多个视觉评测集上的表现接近当前领先的Gemini 2.5 Pro与Seed-VL1.5 Thinking模型,显示出强大的图文理解与推理能力。在文本推理任务上,dots.vlm1的表现与DeepSeek-R1-0528相当,尽管在数学和代码能力上已具备一定的通用性,但在更多样化的推理任务上仍有提升空间。

在实际测试中,dots.vlm1展现了令人惊艳的能力。面对复杂图表和数独问题,模型能够逐步分析并给出正确答案,甚至在长时间思考过程中出现了类似DeepSeek的“啊哈时刻”,体现了其真正的思考和推理能力。dots.vlm1还能解决红绿色盲数字问题,进行数学计算,甚至模仿李白诗风创作诗词,展现了其全面的多模态能力。

dots.vlm1的技术架构由三个核心组件构成:全自研的NaViT视觉编码器、轻量级的MLP适配器以及DeepSeek V3 MoE大语言模型。这一架构通过三阶段流程进行训练,包括视觉编码器预训练、VLM预训练和VLM后训练,旨在提升模型对多样视觉数据的感知能力和泛化能力。

NaViT视觉编码器是dots.vlm1的核心之一,它完全从零开始训练,原生支持动态分辨率,专为视觉语言模型设计。通过两阶段的训练策略,NaViT编码器在基础视觉和语义感知以及高分辨率输入处理方面均表现出色。

在预训练数据方面,hi lab为dots.vlm1准备了跨模态互译数据和跨模态融合数据两大类别,旨在构建一个全谱系的数据分布,覆盖所有可被人类理解且可转化为离散token序列的视觉信息。这些数据包括普通图像、复杂图表、OCR场景图像、视频帧以及Grounding监督数据等,为模型的多模态能力提供了有力支持。

小红书之所以在AI大模型领域加大自研力度,是因为多模态能力已成为通向通用人工智能(AGI)的必经之路。通过模拟人类利用多种感官综合感知世界的方式,多模态AI能够形成更全面、细致的理解,对复杂场景作出更整体化的判断。在自动驾驶、具身智能等领域,VLM正成为机器人理解和融入人类社会的重要工具。

小红书hi lab在AI技术自研上的决心和投入不仅体现在dots.vlm1上,还体现在其不断壮大的dots模型家族中。从dots.llm1到dots.ocr再到dots.vlm1,小红书正逐步构建起自己的AI技术生态。未来,随着AI技术的不断发展,小红书有望在内容理解、个性化推荐以及社区交互等方面实现更多创新应用。

Apple Store应用6.6版焕新登场:液态玻璃设计带来视觉与交互新体验
2025-11-14 08:20:29 作者:狼叫兽 今日,iPhone与iPad平台的AppleStore应用迎来6.6版本更新,此次更新引入了全新设计的应用图标,并对界面进行了视觉升级,以适配iOS 2…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

中国“天衍-287”超导量子计算机搭建完成 搭载同款芯片将全球开放应用
感谢IT之家网友 的线索投递! 11 月 14 日消息,据《科创板日报》11 月 13日报道,从中国电信量子研究院获悉,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”已完成搭建。 该量子计算系…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

京东11.11平板教育品类齐发力 办公游戏平板热销 智能学习设备受青睐
直播渠道同样表现抢眼,联想小新Pro GT、荣誉平板GT2 Pro、小米平板7 Pro获得观众最多青睐。在新兴的闺蜜机品类中,海信、小度添添、小米占据品牌领先地位,海信大白闺蜜机X8 Pro、小度添添闺蜜机…

2025-11-13

荣耀500系列或11月24日登场 骁龙8系加持2亿主摄 影像续航双升级
据悉,荣耀500系列将延续“中屏旗舰”定位,提供两款机型:标准版荣耀500将搭载高通骁龙8s Gen4移动平台,而高配版荣耀500Pro则配备更强劲的骁龙8至尊版移动平台。 除核心性能外,荣耀500系列在…

2025-11-12

华硕提前布局库存应对存储涨价,后续将灵活调整产品与售价策略
IT之家 11 月 12 日消息,华硕联席 CEO 胡书宾昨日在公司的 2025 年第三季法人说明会上表示,该企业已建立一定库存应对目前的DRAM 内存和 NAND 闪存涨价情况;华硕将调整产品组合,适度灵…

2025-11-12

vivo Y500 Pro正式登场!1799元起售,影像续航双优能否搅动中端市场?
2025年11月10日,根据多家科技媒体的消息,vivo这家智能手机厂商举行新品发布会,推出Y系列新一代产品——vivo Y500 Pro,这款产品集影像、设计、系统、耐用、续航等多方面优势于一体,配备2亿H…

2025-11-12