数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

DeepSeek开源3B小模型DeepSeek-OCR,以“光学压缩”探索文本处理新路径

2025-10-21来源:快讯编辑:瑞雪

DeepSeek 团队近日开源了一款名为 DeepSeek-OCR 的 30 亿参数模型,通过创新的“光学压缩”技术,在保持高准确率的同时大幅降低文本处理所需的计算资源。该模型将视觉模态引入文本信息处理领域,为解决大语言模型(LLM)处理长文本时的计算瓶颈提供了新思路。

传统 LLM 在处理长文本时面临计算复杂度平方级增长的难题——序列长度每增加一倍,算力消耗将呈四倍增长。DeepSeek-OCR 的突破性在于将文本转换为图像进行压缩处理:通过视觉模态的“光学压缩”,模型用更少的视觉 Token 承载相同信息量。实验数据显示,该技术可实现 7-20 倍的 Token 压缩率,在 10 倍压缩下 OCR 准确率超过 97%,即使压缩 20 倍仍能保持 60% 准确率。

模型架构由编码器 DeepEncoder 和解码器 DeepSeek3B-MoE 组成。DeepEncoder 采用 SAM-base(8000 万参数)与 CLIP-large(3 亿参数)的串联结构,前者负责局部特征提取,后者进行全局信息整合。中间嵌入的 16× 卷积压缩器可将输入图像的 Token 数量大幅削减,例如 1024×1024 图像经处理后,进入全局注意力层的 Token 从 4096 个降至数百个。这种设计使模型既能处理高分辨率输入(支持 512×512 至 1280×1280 多分辨率),又有效控制了内存开销。

解码器部分采用混合专家(MoE)架构,64 个专家中激活 6 个,配合 2 个共享专家,实际激活参数约 5.7 亿。这种设计使 30 亿参数规模的模型兼具 300 亿参数模型的表达能力与 50 亿参数模型的推理效率。在 OmniDocBench 基准测试中,使用 100 个视觉 Token 的 DeepSeek-OCR 表现优于 GOT-OCR2.0(每页 256 个 Token),使用 800 个 Token 时则超越 MinerU2.0(平均每页超 6000 个 Token)。

数据构建方面,团队从互联网收集了 3000 万页多语言 PDF 文档(中英文占 2500 万页),通过粗标注(fitz 提取)和精标注(PP-DocLayout 等模型生成)结合的方式构建训练集。针对小语种数据,创新采用“模型飞轮”机制:先用版面分析模型检测文本区域,再用生成的数据训练 GOT-OCR2.0,最后用训练好的模型标注更多数据,形成数据生成闭环。模型还整合了 300 万条 Word 文档数据以提升公式识别能力,以及 2000 万条场景 OCR 数据(中英文各半)增强自然图像解析能力。

该模型不仅具备基础 OCR 功能,更实现了对复杂图像的结构化解析。通过统一提示词,可自动提取金融图表数据、转换化学结构式为 SMILES 格式、解析几何图形并生成密集描述。在 STEM 领域(如化学、物理、数学),这种能力可显著提升符号和图形密集型场景的处理效率。

研究团队还提出了一个颇具前瞻性的设想:通过光学压缩模拟人类遗忘机制。具体方案是将历史对话内容渲染为图像,通过逐步压缩图像尺寸实现信息模糊化——近期内容保持高分辨率,久远内容自然淡化。这种设计理论上可支撑“无限上下文”处理,使模型在保持近期上下文高保真的同时,降低历史上下文的计算资源占用。

目前,DeepSeek-OCR 已开源原生分辨率的 Tiny(64 Token)、Small、Base、Large 四档模式,以及动态分辨率的 Gundam 模式。在实际生产环境中,单块 A100-40G 显卡每日可生成超 20 万页训练数据,20 个节点(160 块 A100)的集群日处理量可达 3300 万页。团队强调,当前成果仅是起点,后续将开展数字-光学文本交替预训练、“大海捞针”测试等系统性研究,以全面验证光学压缩技术在上下文处理中的潜力。

OpenAI首款内置ChatGPT浏览器Atlas发布!支持谷歌数据导入,免费下载享7天会员
智东西下载初步体验了Atlas后发现,其基本的操作模式与谷歌等浏览器类似,相当于将ChatGPT直接嵌入浏览器,且从功能来看Atlas与其他AI浏览器并没有较大差距,或许还需要体验一段时间,当其拥有更多浏览…

2025-10-23

结构力学测试龙头东华测试:业绩稳增,布局机器人赛道谋新发展
据了解,东华测试是国内领先的结构力学性能研究和电化学工作站整体解决方案企业,前身为成立于1993年的靖江东华测试技术开发有限公司,2012年在深交所成功上市,其产品广泛应用于国内航空航天、重大装备、大型建筑…

2025-10-23

华为鸿蒙6系统新突破:支持与苹果设备“碰一碰”互传文件,个性化功能升级
值得注意的是,鸿蒙操作系统6还可以通过简单的“碰一碰”轻松分享照片、音乐、链接等丰富内容。与大部分国产智能厂商类似,为了增加和苹果生态的协同性,鸿蒙操作系统6可以通过碰一碰和iOS、iPadOS、macOS设…

2025-10-22

七彩虹iGame Vulcan“火神全家桶”亮相,Vulcan风扇与水冷将于今年率先登场
IT之家 10 月 17 日消息,七彩虹科技昨日在社交平台晒出了 iGame Vulcan“火神全家桶”的系列照片,这台整机由 C25EAVulcan X 机箱、iGame Z890 Vulcan X 主板…

2025-10-21

手游光追照进现实?iQOO 15越级配置带来全能旗舰新体验
在这方面,iQOO 15 的这块屏可以做到最低 1nit 的屏幕显示,并且低亮度下滑动屏幕也不会有明显拖影,夜晚看手机就能大幅减轻视觉疲劳。再多提一嘴,iQOO 15 这次还给玩家安排上了对称的 1511 …

2025-10-21

超4.1万商家直播销售额同比增500%,抖音电商双11商家稳健经营
“双11”促销活动持续升温,抖音电商发布的阶段性数据显示,10月9日至10月19日,平台商家迎来生意新增长,货架与内容双场景协同发力,带动消费热度持续攀升。数据显示,超4.1万商家通过直播带动销售额同比增长500% ,搜索带动销售额破千万元的商家数量同比增长147%。平

2025-10-20

销量破3亿!真我GT8系列携理光GR影像系统打造街拍新体验
以往真我旗舰机型专注于打造“性能影像双擎旗舰”,不过此次真我GT8系列在影像领域更为耀眼,真我的工程师们将全新的旗舰打造成了“街拍神器”和“最强标准版”。更是配备了高素质的2K 144Hz苍穹屏幕,这一配置…

2025-10-20

红米K90系列来袭,K90 Pro Max配置惊艳,或成小米17强劲对手
上一代红米K80 Pro冲击高端,采用2K直屏,加入小米15同款直立长焦摄像头,还加入50W无线充电,首发价格也从K70Pro的3299元飙升至3699元。 最后,两款手机的配置都很强,价格也都很香,尤其…

2025-10-19

李杰详解一加15护眼技术:硬件级低蓝光+智能调色,频闪控制达LTPO行业顶尖
他透露,很多手机的“护眼模式”只是通过软件算法调整色温,乍一看像是降低了蓝光,但实际上开启后屏幕会变黄、变暗,画面也变得不太舒服,只是遮盖了问题。而一加 15 的第三代东方屏是采用硬件级手段来做到护眼,拥…

2025-10-18

OpenAI力推“使用ChatGPT登录”:用户登录即享便利,开发者成本或降
IT之家 10 月 18 日消息,据 The Information 前天(8 月 16 日)报道,OpenAI 正在向多家企业推介“Signin with ChatGPT”(使用 ChatGPT 登录)功…

2025-10-18