System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,具体而言,涉及一种表格信息处理方法、装置、电子设备及存储介质。
技术介绍
1、文档是金融领域最重要的信息载体,但大量文档为不可编辑的pdf(portabledocument format,便携式文件格式)类型或者图片类型,其中的各类表格蕴藏着关键信息,如何对表格信息进行提取和结构化重现是一个关键问题。
2、现有技术中进行表格还原的整体思路是先进行表格检测,得到单元格图片中的表格线,然后在检测出的表格区域进行语义分割,进行表格的结构化重建。
3、但是,基于现有技术进行表格还原时,一些场景下缺乏明显的表格线作为参考,因此很难精准的确定单元格中的表格线。并且十分依赖输入的单元格图片的质量,表格还原的准确性较低。
技术实现思路
1、本申请的目的在于,针对上述现有技术中的不足,提供一种表格信息处理方法、装置、电子设备及存储介质,以解决现有技术中难以精准确定表格线以及表格还原准确性较低的问题。
2、为实现上述目的,本申请采用的技术方案如下:
3、第一方面,本申请提供了一种表格信息处理方法,所述方法包括:
4、对待处理图片进行表格检测,得到所述待处理图片的表格区域以及所述表格区域的第一表格线集合;
5、对所述表格区域进行文本检测,得到所述表格区域内的多个文本以及各文本的文本检测框,并根据各文本检测框与所述第一表格线集合生成所述表格区域的第二表格线集合;
6、根据所述第一表格线集合以及所述第二表格
7、基于所述目标表格线集合以及所述表格区域内的多个文本重建得到目标表格。
8、第二方面,本申请提供了一种表格信息处理装置,所述装置包括:
9、表格检测模块,用于对待处理图片进行表格检测,得到所述待处理图片的表格区域以及所述表格区域的第一表格线集合;
10、文本检测模块,用于对所述表格区域进行文本检测,得到所述表格区域内的多个文本以及各文本的文本检测框,并根据各文本检测框与所述第一表格线集合生成所述表格区域的第二表格线集合;
11、剔除模块,用于根据所述第一表格线集合以及所述第二表格线集合中各表格线的置信度,对所述第一表格线集合和所述第二表格线集合进行剔除处理,得到所述表格区域的目标表格线集合;
12、重建模块,用于基于所述目标表格线集合以及所述表格区域内的多个文本重建得到目标表格。
13、第三方面,本申请提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述表格信息处理方法的步骤。
14、第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述表格信息处理方法的步骤。
15、本申请的有益效果是:通过对待处理图片进行表格检测和文本检测,可以得到尽可能多的初始预测表格线,使得生成的表格线更加稠密,且能够覆盖所有实际存在的表格线。在此基础上,通过基于表格线的置信度对表格线进行剔除处理,可以得到更加准确的表格线描述。针对表格中存在表格线不连续、表格线消失以及单元格合并的情况,本申请的方法可以提高表格线还原的准确性。
本文档来自技高网...【技术保护点】
1.一种表格信息处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对待处理图片进行表格检测,得到所述待处理图片的表格区域以及所述表格区域的第一表格线集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据各文本检测框与所述第一表格线集合生成所述表格区域的第二表格线集合,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一表格线集合以及所述第二表格线集合中各表格线的置信度,对所述第一表格线集合和所述第二表格线集合进行剔除处理,得到所述表格区域的目标表格线集合,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述表格区域中各文本检测框的位置信息以及所述中间表格线集合中各表格线的位置信息,确定所述中间表格线集合中各表格线的第二置信度,包括:
8.根据权利要求6所述的方法,其特征在于,所述根据所述中间表格线集合中各表格线的第一置信
9.根据权利要求6所述的方法,其特征在于,所述根据所述中间表格线集合中各表格线的置信度对所述中间表格线集合中的表格线进行剔除处理,得到所述目标表格线集合,包括:
10.根据权利要求1所述的方法,其特征在于,所述基于所述目标表格线集合以及所述表格区域内的多个文本重建得到目标表格,包括:
11.一种表格信息处理装置,其特征在于,包括:
12.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的程序指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述程序指令,以执行时执行如权利要求 1至 10任一所述的表格信息处理方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1 至 10任一所述的表格信息处理方法的步骤。
...【技术特征摘要】
1.一种表格信息处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对待处理图片进行表格检测,得到所述待处理图片的表格区域以及所述表格区域的第一表格线集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据各文本检测框与所述第一表格线集合生成所述表格区域的第二表格线集合,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一表格线集合以及所述第二表格线集合中各表格线的置信度,对所述第一表格线集合和所述第二表格线集合进行剔除处理,得到所述表格区域的目标表格线集合,包括:
7.根据权利要求6所述的方法,其特征在于,所述根据所述表格区域中各文本检测框的位置信息以及所述中间表格线集合中各表格线的位置信息,确定所述中间表格线集合中各表格线的第二置信度,包括:
8.根据权利要求6所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:李杨,于业达,刘奕晨,
申请(专利权)人:杭州恒生聚源信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。