数据世界
产业资讯 宏观经济 企业动态 人物动态 科技数码 数据洞察 AI前沿 行业峰会 热点资讯

合合信息IPO进行时:破解中文语料难题,加速大模型性能飞跃

2024-09-22来源:数据世界编辑:汪淼

近日,在2024年世界人工智能大会(WAIC)上,合合信息推出TextIn智能文档处理平台,这一创新举措不仅旨在解决当前大模型训练面临的数据局限与质量问题,特别是针对中文语料稀缺和复杂文档解析的难题,更为合合信息的IPO之路增添了浓墨重彩的一笔,为其在AI行业发展提供了强有力的“加速器”。

随着人工智能技术的飞速发展,大模型展现出前所未有的强大能力,其性能的提升离不开海量高质量数据的支持。然而,在中文领域,高质量数据资源的匮乏成为了制约大数据性能进一步提升的瓶颈。合合信息此次推出的Textin智能文档处理平台,针对这一痛点为行业带来了前所未有的解决方案,同时也为公司未来的IPO市场表现奠定了坚实的基础。

该平台集成了TextIn文档解析、TextIn Embedding(文本向量数据模型)以及OpenKIE三大核心工具,旨在从源头提升语料质量,加速大模型的训练与迭代。使用后的大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。其中,TextIn文档解析引擎以其卓越的性能和广泛的适用性,在复杂文档解析方面展现出了强大实力,为大模型提供了更加纯净、结构化的训练数据。

除了文档解析,TextIn Embedding模型也是该平台的重要组成部分。该模型通过深入学习大量中文语料,能够迅速定位目标信息,提取有效文本特征,提高大模型在信息搜索和问答方面的质量、效率和准确性。相比其他开源模型,TextIn Embedding模型具有体积小、占用资源少、支持可变输出维度等优势,能够更好地适应不同场景的需求。

此外,OpenKIE信息抽取工具也为TextIn智能文档处理平台增色不少。该工具能够自动抽取文档中的关键信息,并直接应用于其他系统,极大地提高了工作效率。在大模型文档处理场景中,合合信息与百川智能等头部企业合作,共同破解了多文档元素识别、版面分析等难题,将百页文档的整体处理速率提升超过10倍。

合合信息智能创新事业部总经理唐琪表示,TextIn智能文档处理平台目前已覆盖金融、医学、财经、媒体等47个场景,共支持3200余类文档的处理。该平台已被多家头部大模型厂商纳入预训练流程,并积累了小批量开发者用户。。

未来,合合信息将继续深耕文档处理领域,为大模型的训练与应用提供更多优质“燃料”,推动人工智能技术的持续进步。同时,随着公司IPO进程的推进,合合信息将进一步加速其在AI领域的布局和发展,为社会创造更大的价值。

宁德时代官宣超级增混电池发布会,10月24日见真章!
鞭牛士10月20日消息,宁德时代今日宣布,2024宁德时代超级增混电池品牌暨新品发布会将于10月24日举行,具体时间为14:45-16:30。…

2024-10-20

《黑神话:悟空》获94万好评,强势挺进Steam前三!
2024-10-20 11:01:10 作者:姚立伟 SteamDB数据显示,《黑神话:悟空》在2024年的评价中名列第三,好评率达到95.51%,仅次于《幸福工厂》的95.60%和《小丑牌》的95.65%…

2024-10-20

Meta Quest头显v71公测版更新,Q3/3S型号GPU性能提升10%
值得一提的是,除了性能改进之外,v71更新还为Quest 3/3S / Pro带来了“键盘追踪(TrackedKeyboard)”功能,该功能类似苹果Vision Pro,在虚拟环境中透视“抠图”显示用户的…

2024-10-20

马斯克X遭纬颖科技追讨6100万,新增两项指控引关注
10月20日消息,台湾地区服务器供应商纬颖科技(Wiwynn)正在起诉 X(前身为推特),要求后者赔偿至少 6100 万美元(注:当前约4.34 亿元人民币)的未付款项。纬颖科技在诉讼中指控 X 公司违反合…

2024-10-20

深蓝S05紧凑型SUV来袭,15万售价10月20日正式面世!
在动力系统上,深蓝S05增程版配备1.5L增程系统,增程器最大功率72kW,驱动电机最大功率160kW,提供17.08kWh和27.28kWh两种电池容量,纯电续航分别为100km和155km,馈电油耗分别为…

2024-10-20