数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

解析稳定率达99.99%!合合信息“大模型加速器2.0”助力AI打破“幻觉”

2025-03-24来源:互联网编辑:芳华

随着大模型在社会应用中逐渐普及,人们在享受便利的同时,也面临着“AI 幻觉”产生的风险。训练数据是影响大模型“认知能力”的关键要素,近期,上海合合信息科技股份有限公司(简称“合合信息”)TextIn“大模型加速器 2.0”版本正式上线,基于领先的智能文档处理技术,对复杂文档的版式、布局和元素进行精准解析及结构化处理,从数据源头降低大模型“幻觉”风险,让大模型在与人类的沟通中“更靠谱”。

图说:“大模型加速器 2.0”文档解析引擎助力知识库理解手写笔记示意图

据悉,升级后的“大模型加速器”在复杂版面理解、表格及图表处理、内容溯源等能力上实现新突破,可精准识别上千种文档中的跨页表格、合并单元格、密集表格、手写字符及公式,解析稳定率达99.99%,单页处理耗时较行业可比产品降低超30%;可“逆还原”十余种专业图表数据,并将其转化为大模型可理解的结构化数据。此外,“大模型加速器 2.0”版本新增知识库系列开源组件,助力医疗、制造、教育等行业开发者构建个性化的知识库。

文档解析技术助力教育大模型建设

大模型需要不断“吸收”正确的专业知识,才能应对实际应用问题。合合信息技术团队成员表示,在处理年报、论文、实验室报告等专业文档的过程中,一个符号的解析失误,便可能“误导”大模型,得出与事实相悖的结论。可信性的缺失,也制约了大模型在实际应用场景中的纵深拓展。

赛尔教育科技发展有限公司(简称“赛尔教育”)系“中国教育和科研计算机网CERNET”的运营公司赛尔网络的重要子公司,是教育国际化、教育信息化、数字化教育方案的提供商。赛尔教育CTO、教育数字化事业部总经理杨林提到,教育行业中所涉及的文档格式多样,在内容上也包含了表格、公式、手写字符、多语言文字等信息。如何高效准确地提取各类文档中的文本信息,并非易事。

“教育行业的大模型建设工作中,数据的数量和质量起着决定性作用。我们做了很多尝试,模型的速度和准确性都达不到要求,严重影响科研工作的进展。”杨林表示,行业知识库的构建基于大量文档的文本信息提取,需要高效率、高准确率的工具。合合信息文档解析技术提供了专业的技术支持和服务,有效解决了文档处理过程中的问题。

在“大模型加速器”的支持下,合合信息与赛尔教育共同协作,提升大模型对复杂版面、元素的“理解力”,使其按照人类正常的阅读顺序识别文档结构,智能划分标题、段落、表格和图表等内容块,帮助大模型理解版面、内容间的对应关系,减少AI“幻觉”现象。

图说:图表解析模块将图表还原为表格数据

除了复杂的版面布局,种类繁多、空间结构复杂的图表元素也是解析难点所在。“大模型加速器2.0”图表解析模块可智能提取多种图表中的关键数据点、坐标轴信息、图例说明等,在精准解析不同类型图表数据的基础上,将其还原为一组完整的Excel表格数据,作用于教育行业大模型微调,学科知识库建设、智能审阅等环节。

智能溯源让大模型用得更“安心”

近期,多家券商机构纷纷宣布接入大模型,帮助分析师、行业研究员等专业人士提高工作效率。为帮助用户简化专业文档数据筛选和数据抽取流程,提升文档内容解读效率与准确率,“大模型加速器 2.0” 上线了知识库产品组件,支持复杂文档的智能问答、总结与检索。

为了让行业“安心”使用大模型,知识库产品推出溯源功能,通过在“投喂”给知识库的Markdown及JSON文件中标记页码、坐标等空间位置信息,实现对句子、段落的精确溯源,为用户提供了一个快速检验的路径。以财务分析为例,大模型在多份高达上千页的财报文件中找到收入、利润等关键数据后,券商分析师可利用溯源功能定位原表格,对信息进行复核,防止错误、遗漏。

图说:知识库对财报数据所在表格进行精准溯源

目前,知识库组件已面向开发者开源,帮助其根据自身需要快速构建个性化行业知识库。此前,合合信息已开源智能文档处理“百宝箱”系列产品,解决文档解析精度低、解析效果评估难等问题,开发者可根据研发需求灵活搭配使用。未来,“大模型加速器”将持续优化迭代,助力大模型在各行各业中“百花齐放”。

Apple Store应用6.6版焕新登场:液态玻璃设计带来视觉与交互新体验
2025-11-14 08:20:29 作者:狼叫兽 今日,iPhone与iPad平台的AppleStore应用迎来6.6版本更新,此次更新引入了全新设计的应用图标,并对界面进行了视觉升级,以适配iOS 2…

2025-11-14

华为Mate70 Air深度体验:打破常规,超大屏“Air”的另类演绎
可以确定,华为Mate70 Air的影像没有因为“Air”的定义做妥协,在同价位机型中是能打的,硬件配置方面也是这个思路。这也符合华为Mate70 Air的技术路径,虽然重量不可避免地来到208g,但是保…

2025-11-14

中国“天衍-287”超导量子计算机搭建完成 搭载同款芯片将全球开放应用
感谢IT之家网友 的线索投递! 11 月 14 日消息,据《科创板日报》11 月 13日报道,从中国电信量子研究院获悉,搭载“祖冲之三号”同款芯片的超导量子计算机“天衍-287”已完成搭建。 该量子计算系…

2025-11-14

荣耀500 Pro配置亮点全揭秘:骁龙8至尊版+2亿主摄+8000mAh长续航
【CNMO科技消息】11月14日,有数码博主曝光了荣耀500Pro的核心参数。CNMO注意到,新机将搭载骁龙8至尊版移动平台,电池容量达到8000mAh,主打2亿像素大底主摄。 除了上述核心亮点外,荣耀50…

2025-11-14

京东11.11平板教育品类齐发力 办公游戏平板热销 智能学习设备受青睐
直播渠道同样表现抢眼,联想小新Pro GT、荣誉平板GT2 Pro、小米平板7 Pro获得观众最多青睐。在新兴的闺蜜机品类中,海信、小度添添、小米占据品牌领先地位,海信大白闺蜜机X8 Pro、小度添添闺蜜机…

2025-11-13

荣耀500系列或11月24日登场 骁龙8系加持2亿主摄 影像续航双升级
据悉,荣耀500系列将延续“中屏旗舰”定位,提供两款机型:标准版荣耀500将搭载高通骁龙8s Gen4移动平台,而高配版荣耀500Pro则配备更强劲的骁龙8至尊版移动平台。 除核心性能外,荣耀500系列在…

2025-11-12

华硕提前布局库存应对存储涨价,后续将灵活调整产品与售价策略
IT之家 11 月 12 日消息,华硕联席 CEO 胡书宾昨日在公司的 2025 年第三季法人说明会上表示,该企业已建立一定库存应对目前的DRAM 内存和 NAND 闪存涨价情况;华硕将调整产品组合,适度灵…

2025-11-12

vivo Y500 Pro正式登场!1799元起售,影像续航双优能否搅动中端市场?
2025年11月10日,根据多家科技媒体的消息,vivo这家智能手机厂商举行新品发布会,推出Y系列新一代产品——vivo Y500 Pro,这款产品集影像、设计、系统、耐用、续航等多方面优势于一体,配备2亿H…

2025-11-12