数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

DeepSeek-OCR 2开源登场:以视觉因果流开启文档理解新范式

2026-01-27来源:互联网编辑:瑞雪

深度求索团队近日宣布开源新一代文档理解模型DeepSeek-OCR 2,并同步发布技术论文《DeepSeek-OCR 2: Visual Causal Flow》。该模型在综合性文档理解基准OmniDocBench v1.5测试中取得91.09%的突破性成绩,较前代提升3.73个百分点,尤其在复杂文档的逻辑顺序还原能力上实现质的飞跃。

传统OCR技术采用"机械扫描"式处理方式,通过固定网格切割图像后按空间顺序识别文字。这种模式在处理学术论文、金融报表等多栏排版文档时,常出现逻辑断裂、语义关联丢失等问题。DeepSeek-OCR 2通过引入"视觉因果流"编码范式,使模型具备自主推理文档结构的能力,实现从"机械扫描"到"智能阅读"的认知升级。

新模型的核心创新在于DeepEncoder V2架构,该架构通过三阶段处理流程重构文档理解逻辑:首先利用双向注意力机制建立全局视觉感知,继而通过因果流查询组件动态推导最优阅读顺序,最终将高维视觉信息压缩为富含语义的视觉标记序列。这种处理方式使模型输出的视觉序列自带因果顺序特征,为后续语言解码提供结构清晰的"思考蓝图"。

在性能表现上,DeepSeek-OCR 2展现出显著优势。其视觉标记压缩率较前代提升40%,仅需256-1120个标记即可精准表示复杂文档内容,大幅降低下游计算负担。在学术论文、财务报表等场景测试中,模型不仅能准确识别文字,更能还原段落间的逻辑关系,输出文本可直接用于分析归档。标准化编辑距离指标提升33%,证明其在阅读顺序准确性上的突破性进展。

技术团队指出,该模型的价值不仅限于OCR领域。其验证的因果流机制为多模态AI架构提供新思路——未来模型或可通过类似机制,自主理解文本、图像、音视频等不同模态信息的内在结构,生成统一的语义表示。这种处理方式更接近人类认知模式,有望推动跨模态理解与生成技术发展。

当前模型在极端密集文本场景(如古典报纸)的识别效果仍有优化空间。研究团队表示将持续改进模型鲁棒性,同时探索因果流机制在更多模态领域的应用可能性。

月之暗面发布Kimi K2.5模型:多模态全能助手,办公交互新体验来袭
同时也是Kimi迄今最全能的模型,原生的多模态架构设计,同时支持视觉与文本输入、思考与非思考模式、对话与Agent任务。 Agent模式:擅长深度研究、PPT、Excel、Word、PDF和网页生成等任务;…

2026-01-27

讯飞星辰智能体平台升级:AI化身“数字双手” 开启办公自动化新纪元
整场发布会中,多位 RPA 数字员工更是全程上岗、高效支撑:自动通知演示官上场、实时回复同事信息、收取邮件并同步设置待办提醒……一系列高频办公任务的自动化执行,让现场观众直观感受到,AI 已真正成为能落地…

2026-01-27

优洋科技手机补光灯:专业品质助力摄影直播,高性价比之选
对于专业摄影师或对灯光质量有较高要求的用户,该公司也提供了定制的补光灯产品,虽然价格相对较高,但在性能和品质上物有所值。 与市场上其他品牌的手机补光灯相比,优洋科技的产品不仅在价格上具有竞争力,而且在质量和…

2026-01-27

伟通科技手机维修:专业团队护航,合理定价多元服务成手机回收优选
良好的口碑是企业实力的体现,也让消费者在选择该企业进行手机回收时更加放心。后,对比不同企业的回收价格和服务,选择性价比高的企业。伟通科技手机维修凭借其专业的团队、合理的价格、多元化的服务和良好的口碑,是消费者…

2026-01-27