数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

百度千帆Qianfan-OCR模型发布:4B参数实现文档智能解析,多项评测成绩领先

2026-03-20来源:互联网编辑:瑞雪

百度千帆近日宣布推出全新端到端文档智能模型Qianfan-OCR,该模型采用统一的视觉语言架构,以40亿参数规模实现了文档解析、版面分析、文字识别与语义理解的一体化融合。在多项权威评测中,该模型展现出显著优势,标志着文档智能技术从多阶段流程向统一模型架构的跨越式发展。

在核心基准测试中,Qianfan-OCR表现尤为亮眼。在OmniDocBench v1.5评测中以93.12分位居端到端模型榜首,OCRBench评测成绩显著超越同规模通用视觉语言模型和专用OCR模型。在关键信息提取(KIE)领域,该模型在多个公开榜单总分上力压Google Gemini 3-Pro等国际商用模型,展现出强大的技术竞争力。

针对图表理解等复杂场景,Qianfan-OCR在ChartQA、ChartBench等6项国际权威评测中斩获5项最佳成绩。其独特的结构理解与多模态推理能力,能够精准解析包含复杂表格、混合图表的文档内容,在金融报表、科研论文等场景中具有显著应用价值。

传统OCR系统普遍采用"检测-识别-大模型"三段式架构,这种串联处理方式容易导致误差累积,且在文本分块提取过程中会破坏原始文档的空间结构与视觉上下文。例如复杂表格的行列关系、图表的坐标对应等关键信息,在传统流程中往往出现理解偏差。

Qianfan-OCR通过底层架构创新,构建了端到端的视觉语言模型。该模型直接从文档图像生成结构化输出,完整保留视觉信息与空间关系,实现从像素到语义的直接映射。这种技术路径不仅提升了处理效率,更在结构理解与推理任务中达到更高精度,有效解决了传统方案的固有缺陷。

目前,Qianfan-OCR已在百度千帆平台全面开放,同时通过HuggingFace开源模型权重。开发者与企业用户可自由调用该模型,应用于金融、医疗、教育等领域的文档智能化处理,推动行业数字化转型进程。

3月新机发布盛宴:华为、一加、iQOO、vivo多款新品齐亮相
3月23日:华为畅享90 Plus、畅享90 Pro Max 3月24日:一加15T 3月26日:iQOO Z11、Z11X3月30日:vivo X300s、X300 Ultra 一加15T配备一块6.3…

2026-03-19

华为官宣3月23日发布畅享90系列:麒麟芯+巨鲸电池,续航实力再升级
至于华为畅享90Plus,该机大概率会搭载麒麟8000或麒麟8000a处理器,性能表现可以参考华为畅享70X和畅享70X尊享版,大概率标配8GB运行内存。 亓言纪语:对于华为畅享90系列,亓纪的想法是这样…

2026-03-19

苹果“Apple 开发者”账号入驻B站,携超50段视频备战2026年WWDC
苹果官方账号“Apple 开发者”日前在 B 站发布“Hello World”视频,在视频描述中写道:“加入我们,探索 Apple开发者社区的最新活动、视频、故事和新闻。” 该账号目前已更新上线超50段视…

2026-03-19

Counterpoint预测:苹果携iPhone Fold入局折叠屏,首年或跻身行业前三
3月19日消息,调研机构CounterpointResearch最新报告指出,苹果计划进入折叠屏智能市场后,有望在首年凭借旗下首款折叠产品iPhone Fold拿下约28%的市场份额,并直接跻身行业前三阵营…

2026-03-19

苹果手机用户必看!三款免费去水印小程序,轻松解锁纯净视频世界
今天我要用我毕生的热情,来给你们安利这三个让我闺蜜起死回生、让我本人拍案叫绝、让所有苹果手机用户都能笑出声的免费去水印神器!这款工具把“简单”二字做到了极致,极致到我家60岁的老妈,看我操作一遍后,就成功把她…

2026-03-19

预算300-5000元怎么选开放式耳机?虹觅、韶音、华为三款实测对比来帮你
经过多轮实测对比,我精选出了三款在这个价位段里表现均衡、音质在线、佩戴舒服、综合性价比很高的机型,分别是:虹觅 Ultra、韶音OpenAir和 华为FreeARC。 韶音OpenAir:采用18mmx11…

2026-03-19