System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种引入单元格对齐信息的基于图像到序列技术的表格解析方法技术_技高网

一种引入单元格对齐信息的基于图像到序列技术的表格解析方法技术

技术编号:43846486 阅读:22 留言:0更新日期:2024-12-31 18:40
本发明专利技术公开了一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,涉及文字识别、信息抽取领域,通过引入单元格对齐信息,设计了一种能同时解析表格结构、文字识别和单元格对齐信息的表格解析模型。通过加入了对齐信息的单元格文本匹配算法降低上述部分文本误分配问题的出现频率,提升表格结构解析的准确率,从而优化表格解析的模型效果。同时,本发明专利技术设计了一套表格随机生成算法,该算法可生成单元格各自随机对齐的表格图片及其对应带有对齐信息的标注信息。该算法可为本发明专利技术提出的表格解析算法提供训练用数据集。

【技术实现步骤摘要】

本专利技术属于文字识别、信息抽取领域,更具体地说,尤其涉及一种引入单元格对齐信息的基于图像到序列技术的表格解析方法


技术介绍

1、近年来,伴随着文字识别、信息抽取等技术的不断完善,表格解析技术也得到了越来越多的关注;表格解析算法可以分析和抽取表格图片中的结构和信息,并将提取出的结构化表格存储为相应的格式;目前的表格解析模型大多以表格结构信息和文本识别的准确率作为主要的训练目标;然而,目前单纯基于这两者训练出来的模型在表格解析结果上仍未达到完美,依旧有部分解析结果会有偏差;本专利技术注意到,其中有一部分解析偏差某种程度上都和“单元格对齐”有关;本专利技术认为,这部分由单元格文本误分配造成的结果偏差可以通过引入一个目前尚未受到重视的、额外的模型训练目标“单元格对齐信息”进行优化;

2、目前表格解析效果的衡量标准大致可分为两块,即表格结构解析的准确率以及单元格内部的文本识别准确率;当前的表格解析模型大多基于这两部分进行训练,其基于的众多大型公开数据集内的图片标注信息也多由这两部分组成,原表格图像中表达出来的其他属性在现有模型中并未被提取和关注;然而,目前单纯基于这两者训练出来的模型在实践解析结果上仍有优化的空间;比如本专利技术观察到,如果原表格图片中的某单元格右对齐而接下来的单元格左对齐时,解析模型有时会将其中一方的文本错误的分配到另一方单元格内;再如对于某些列宽较大的表格列,如果存在某几行与该列其余单元格的对齐方向相反,则其有时会被解析成另一列的内容;可以注意到,这些解析偏差某种程度上都和“单元格对齐”有关,其中因左右对齐差异造成的误差较为明显。


技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,通过引入单元格对齐信息,设计了一种能同时解析表格结构、文字识别和单元格对齐信息的表格解析模型。通过加入了对齐信息的单元格文本匹配算法降低上述部分文本误分配问题的出现频率,提升表格结构解析的准确率,从而优化表格解析的模型效果。同时,本专利技术设计了一套表格随机生成算法,该算法可生成单元格各自随机对齐的表格图片及其对应带有对齐信息的标注信息。该算法可为本专利技术提出的表格解析算法提供训练用数据集。

2、为实现上述目的,本专利技术提供如下技术方案:

3、一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,包括如下步骤:

4、s1、方法包含一个表格生成算法:根据用户输入生成参数,参数决定生成表格的数量、大小、是否有跨行跨列单元格、跨行跨列单元格的长度范围、表格结构复杂度;由表格生成算法生成训练所需数据集;

5、s2、建立表格解析模型并训练模型,所述表格解析模型包括文本行检测模型、文本行识别模型、表格结构识别模型;

6、s3、文本行检测、文本行识别、表格结构识别三个部分训练完成后,单独进行模型推理;

7、s4、在三部分的推理结果都获取后,首先,合并算法将接收表格结构识别给出的结构序列,并作为html表格的框架;其次,表格结构识别与文本行检测部分的位置预测结果会交给单元格文本匹配算法获取配对信息;最后,合并算法会通过配对,将文本行通过一定规律匹配进表格结构中的对应位置中;

8、s5、对输入的表格图片,训练后的模型会获得一份带有对齐信息的html表格,通过转换代码将其转换成对应表格格式。

9、优选的,步骤s1中,生成表格具体为:

10、s11、基于需求的表格大小生成一个二维标识结构;

11、s12、根据参数在一定范围内挑选单元格将其标识为跨行跨列单元格的起点,同时标识其跨越长度和方向;

12、s13、跨越长度根据参数在一定范围内随机,同时保证不覆盖任何其他的跨行跨列单元格;

13、s14、被标识单元格后续的数个在跨越范围内的单元格会同时被标记为被覆盖的状态,这些位置在生成的表格中不可见且不会参与后续对跨行跨列单元格位置的随机。

14、优选的,对于复杂度等于n的表格,算法会先随机找一个表格块切割为两部分,切割方向从横纵中随机,切割后任意部分表格块都可作为下次切割的对象,该切割操作持续n次。

15、优选的,步骤s2中,建立表格解析模型具体为:

16、s21、文本行检测tld负责检测图片中文本出现的位置,读入为表格图片,输出为文本行坐标和基于坐标截取的文本行图片;其中坐标会与表格结构识别中的坐标预测一起进行单元格文本匹配,截取的文本行图片会交由文本识别模型tlr继续处理;

17、s22、文本行识别tlr负责检测文本图片中的内容并将其转换成文本,读入为文字图片,输出为文字识别结果;文本信息后续会交给合并优化算法嵌入到对应的表格位置中去;

18、s23、表格结构识别tsr负责预测整体表格结构,单元格对齐信息以及对应单元格大致位置;读入为表格图片,输出为一个表格结构+单元格对齐信息序列以及单元格坐标预测;其中单元格坐标预测会和文本检测模型的结果一起进行单元格文本匹配;结构加单元格对齐信息序列会交给合并优化算法作为表格的框架使用;

19、s24、单元格文本匹配算法负责将文本行检测tld输出的文本位置匹配到表格结构识别tsr输出的单元格位置中,读入为文本检测的文本行坐标和结构识别的单元格坐标预测,输出为单元格与文本的配对关系;

20、s25、合并优化算法负责接收上述所有部分的输出并将其统合成一张html表格,读入为表格结构识别tsr给出的表格结构+单元格对齐信息序列、单元格文本匹配算法给出的单元格文本配对关系以及文本行识别给出的单元格文本,通过配对关系将文本嵌入到表格结构框架中,并通过单元格对齐信息、统计信息和一些预设规则进一步优化文本识别的准确率;输出为合成的html表格;

21、s26、格式转换代码负责将html表格转换成所需的表格。

22、优选的,步骤s2中,所述的模型架构为:

23、箭头:指将上一部分的输出传入到箭头指向部分的输入,若上一部分未显性描述,则表示数据从组件/模型外部传入;

24、线性层:对输入执行一次线性计算;

25、加法层:对两个输入相加;

26、归一层:对输入归一化;

27、卷积层:对输入执行卷积;

28、矩阵乘法层:对输入执行矩阵乘法;

29、掩码层:对输入的一部分进行遮蔽;

30、缩放层:对输入执行缩放;

31、连接层::将输入连接到一起;

32、relu:一种修正线性函数,公式为:

33、f(x)=max(0,x);

34、softmax:一种概率转换函数,公式为:

35、

36、嵌入/向量化层:将输入映射到向量空间;

37、层的组合又可以形成基础模块,模型中将用到以下模块:

38、缩放点积注意力模块:输入分别为q本文档来自技高网...

【技术保护点】

1.一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤S1中,生成表格具体为:

3.根据权利要求2所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法中所包含的表格生成算法,其特征在于:对于复杂度等于n的表格,算法会先随机找一个表格块切割为两部分,切割方向从横纵中随机,切割后任意部分表格块都可作为下次切割的对象,该切割操作持续n次。

4.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤S2中,建立表格解析模型具体为:

5.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤S2中,所述的模型架构为:

6.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤S2中,所述的文本行检测模型负责检测图片中文本出现的位置,读入为表格图片,输出为文本行坐标和基于坐标截取的文本行图片;

7.根据权利要求6所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤S2中,所述的文本行识别模型负责检测文本图片中的内容并将其转换成文本,读入为文字图片,输出为文字识别结果;

8.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于:步骤S2中,所述表格结构识别模型负责预测整体表格结构,单元格对齐信息以及对应单元格大致位置。读入为表格图片,输出为一个表格结构+单元格对齐信息序列以及单元格坐标预测。

9.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于:步骤S2中,所述的单元格文本匹配算法负责将文本行检测TLD输出的文本位置匹配到表格结构识别TSR输出的单元格位置中,读入为文本检测的文本行坐标和结构识别的单元格坐标预测,输出为单元格与文本的配对关系。

...

【技术特征摘要】

1.一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s1中,生成表格具体为:

3.根据权利要求2所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法中所包含的表格生成算法,其特征在于:对于复杂度等于n的表格,算法会先随机找一个表格块切割为两部分,切割方向从横纵中随机,切割后任意部分表格块都可作为下次切割的对象,该切割操作持续n次。

4.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,建立表格解析模型具体为:

5.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,所述的模型架构为:

6.根据权利要求1所述的一种引入单元格对齐信息的基于图像到序列技术的表格解析方法,其特征在于,步骤s2中,所述...

【专利技术属性】
技术研发人员:候学杰崔赫杨林张鹤许若华
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1