System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种长文档中的表格信息抽取方法、装置、设备及介质。
技术介绍
1、长文档中通常蕴含着大量的信息,其中包括以表格形式呈现的结构化或半结构化数据。这些信息中可能包含重要的业务、科研或统计数据。然而,长文档的复杂性以及表格的多样性,使得有效地从中提取所需要的表格信息变得愈发困难。
2、专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:目前,传统的文档处理方法在面对长文档中的表格信息时往往存在诸多限制。手动提取表格信息费时费力,自动处理算法通常无法适应长文档的多样性和复杂性。当前技术面临的主要问题之一是在大规模长文档中准确和高效地抽取所需的表格信息。由于长文档的内容可能包含各种格式和不同结构的表格,而传统方法往往无法灵活适应这种多样性。此外,表格的排列方式、表格内部单元格结构以及表格所处上下文信息变化多端,增加了从文档中正确提取信息的难度。
技术实现思路
1、本专利技术提供了一种长文档中的表格信息抽取方法、装置、设备及介质,以实现对长文档中表格信息抽取的准确率和效率的提高。
2、根据本专利技术的一方面,提供了一种长文档中的表格信息抽取方法,其中,包括:
3、获取待信息抽取的目标长文档,并对所述目标长文档进行文档预处理操作,得到目标长文档富文本信息;
4、将所述目标长文档富文本信息输入至预先训练好的表格分类模型中进行识别,得到至少一个目标表格;
5、通过预先设置的单元格行列向量提取方法,分
6、将与每个目标单元格对应的目标行表征向量和目标列表征向量分别输入至预先训练好的单元格分类模型中进行分类处理,得到表格信息抽取结果,并将所述表格信息抽取结果向用户进行反馈操作。
7、根据本专利技术的另一方面,提供了一种长文档中的表格信息抽取装置,其中,包括:
8、目标长文档富文本信息确定模块,用于获取待信息抽取的目标长文档,并对所述目标长文档进行文档预处理操作,得到目标长文档富文本信息;
9、目标表格确定模块,用于将所述目标长文档富文本信息输入至预先训练好的表格分类模型中进行识别,得到至少一个目标表格;
10、目标行表征向量和目标列表征向量确定模块,用于通过预先设置的单元格行列向量提取方法,分别对各所述目标表格对应的各个目标单元格进行特征提取操作,得到各所述目标单元格对应的目标行表征向量和目标列表征向量;
11、表格信息抽取结果确定模块,用于将与每个目标单元格对应的目标行表征向量和目标列表征向量分别输入至预先训练好的单元格分类模型中进行分类处理,得到表格信息抽取结果,并将所述表格信息抽取结果向用户进行反馈操作。
12、根据本专利技术的另一方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现本专利技术任一实施例所述的一种长文档中的表格信息抽取方法。
13、根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的一种长文档中的表格信息抽取方法。
14、本专利技术实施例的技术方案,通过获取待信息抽取的目标长文档,并对目标长文档进行文档预处理操作,得到目标长文档富文本信息;将目标长文档富文本信息输入至预先训练好的表格分类模型中进行识别,得到至少一个目标表格;通过预先设置的单元格行列向量提取方法,分别对各目标表格对应的各个目标单元格进行特征提取操作,得到各目标单元格对应的目标行表征向量和目标列表征向量,并将其分别输入至预先训练好的单元格分类模型中进行分类处理,得到表格信息抽取结果,并将表格信息抽取结果向用户进行反馈操作。解决了不能准确对长文档进行表格信息抽取的问题,提高了长文档中表格信息抽取的准确率和效率。
15、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种长文档中的表格信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述目标长文档富文本信息包括下述至少一项描述信息:标题、段落、表格、页眉、页脚、图片和目录;
3.根据权利要求2所述的方法,其特征在于,在所述获取待信息抽取的目标长文档,并对所述目标长文档进行文档预处理操作,得到目标长文档富文本信息之前,还包括:
4.根据权利要求3所述的方法,其特征在于,在将所述模型输出目标表格和所述历史目标表格进行比较处理,得到模型准确率比较结果之后,还包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述模型输出目标表格和所述历史目标表格进行比较处理,得到模型准确率比较结果,包括:
6.根据权利要求1所述的方法,其特征在于,在所述获取待信息抽取的目标长文档,并对所述目标长文档进行文档预处理操作,得到目标长文档富文本信息之前,还包括:
7.根据权利要求6所述的方法,其特征在于,所述获取并根据预先设置的分类处理准确率阈值,来确定是否完成所述单元格分类模型的训练,包括:
8.一种
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的一种长文档中的表格信息抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求1-7中任一项所述的一种长文档中的表格信息抽取方法。
...【技术特征摘要】
1.一种长文档中的表格信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述目标长文档富文本信息包括下述至少一项描述信息:标题、段落、表格、页眉、页脚、图片和目录;
3.根据权利要求2所述的方法,其特征在于,在所述获取待信息抽取的目标长文档,并对所述目标长文档进行文档预处理操作,得到目标长文档富文本信息之前,还包括:
4.根据权利要求3所述的方法,其特征在于,在将所述模型输出目标表格和所述历史目标表格进行比较处理,得到模型准确率比较结果之后,还包括:
5.根据权利要求4所述的方法,其特征在于,所述将所述模型输出目标表格和所述历史目标表格进行比较处理,得到模型准确率比较结果,包括:
6.根据权利要求1所述的方法,其特征在于,在所...
【专利技术属性】
技术研发人员:李宽,岳小龙,章逸骋,胡嘉杰,纪传俊,
申请(专利权)人:达观数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。