数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

DeepSeek-OCR2革新登场:首推「因果流」视觉编码,性能超越Gemini

2026-01-27来源:快讯编辑:瑞雪

DeepSeek团队近日宣布推出全新升级的DeepSeek-OCR2模型,该模型通过引入创新的DeepEncoder V2视觉编码器架构,实现了视觉处理范式的重大突破。与传统模型机械式的图像扫描方式不同,新架构模拟人类视觉认知的因果逻辑流,能够根据内容语义动态调整信息处理顺序。

核心技术创新在于视觉编码器的重构。研究团队采用轻量化Qwen2-0.5B语言模型替代传统CLIP编码器,构建了包含视觉分词器和因果查询机制的双模块架构。视觉分词器沿用SAM-base架构配合卷积层,将图像转换为视觉标记;而独特的因果流查询机制通过可学习的查询标记,配合双向与因果混合的注意力掩码设计,实现了视觉信息的语义重排。

实验数据显示,新模型在保持极高压缩率的同时显著提升处理精度。在OmniDocBench v1.5基准测试中,使用256-1120个视觉标记的DeepSeek-OCR2取得91.09%的综合得分,较前代提升3.73%。特别值得注意的是,阅读顺序编辑距离指标从0.085优化至0.057,证明模型在复杂版面处理中展现出更强的逻辑性。

与闭源强模型Gemini-3 Pro的对比测试中,DeepSeek-OCR2在约1120个视觉标记的条件下,文档解析编辑距离达到0.100,优于对手的0.115。生产环境测试显示,该模型使在线用户日志图像的OCR结果重复率从6.25%降至4.17%,PDF数据处理重复率从3.69%降至2.88%,显著提升了数据清洗效率。

研究团队强调,这项突破验证了"语言模型作为视觉编码器"的技术路径可行性。通过配备不同模态的查询嵌入,同一编码器架构未来有望同时处理文本、图像、音频等多模态数据,为构建原生多模态系统奠定基础。目前模型代码、论文及预训练权重已在GitHub和HuggingFace平台开源发布。

轻盈如羽仙紫相伴 荣耀Magic8 Pro Air开箱美图来袭
出自蜂鸟网-手机,原文链接:https://m.fengniao.com/slide/5381593.html 荣耀Magic8 Pro Air带来的是颠覆性的轻盈手感,155g的重量和6.1mm的厚度,…

2026-01-27

2026开放式耳机舒适度大比拼!十款宝藏耳机让你告别佩戴疲劳
开放式耳机凭借不侵入耳道的设计,解决了长久佩戴的胀痛与闷热感,在提供舒适体验的同时兼顾了户外使用的环境感知安全,成为主流之选。 这款耳机采用BassUp低音增强技术,低音的量感和节奏感得到强化,适合听电子乐、…

2026-01-27

新型储能:为可再生能源“驯服”波动,开启绿色电力新时代
此外,新型储能设备的应用,还极大地提升了能源利用的效率和经济性。随着技术的不断进步和成本的持续下降,我们有理由相信,新型储能设备将不仅局限于电力调峰,更将深入到交通、工业、建筑等各个领域,成为推动社会全面绿…

2026-01-27

太空光伏与具身智能星座双轮驱动 卫星产业迎新机遇 卫星产业ETF成投资优选
这意味着一个全新的万亿级赛道——太空能源,正在从概念快速走向设备采购和实质性建设阶段,为地面光伏设备、特种材料、航天运输等产业链环节带来了明确且巨大的增量订单预期。当前,卫星产业的叙事已从“组网”深化至 “…

2026-01-27