版面块排序的方法、装置,以及电子设备制造方法及图纸

技术编号:38937871 阅读:28 留言:0更新日期:2023-09-25 09:38
本申请公开了一种版面块排序的方法,属于光学字符识别领域,有助于提升工作流执行的效率。所述方法包括:根据目标图像进行版面块切割得到至少两个待排序版面块的空间信息,生成版面块空间信息序列;通过预先训练的神经网络模型的编码网络模块,对版面块空间信息序列进行特征提取和编码处理,获取版面块空间信息序列对应的特征编码序列,该特征编码序列中的每个版面块特征向量与待排序版面块一一对应;通过该神经网络模型的解码网络模块,对该特征编码序列进行排序预测,得到各待排序版面块的排序结果。本方法通过神经网络模型对版面块的空间信息和版面块排序位置之间复杂的映射关系进行学习,并应用于版面块排序中,提升了版面块排序的准确率。块排序的准确率。块排序的准确率。

【技术实现步骤摘要】
版面块排序的方法、装置,以及电子设备


[0001]本申请涉及光学字符识别领域,特别是涉及版面块排序的方法、装置,以及,电子设备及计算机可读存储介质。

技术介绍

[0002]在光学字符识别(OCR)应用中,版面分析是至关重要的一步。版面分析主要对图像中的文本,图像,表格信息等进行分析和理解。通常,版面分析首先会切分出图像中的属于文本,图像,表格的区域,这些区域被称为版面块。通过版面分析切分出的版面块是孤立的区域,各个版面块之间缺乏合适的逻辑结构,需要通过对版面块进行排序,之后,基于有序的版面块进行版面内容的理解。可见,版面块排序结果对后续的版面内容分析会产生一定影响。
[0003]现有技术中的版面块排序方法主要包括以下两种:第一种,考虑所有版面块之间全局最小距离,按照行主顺序迭代地版面块进行合并;第二种,按照行主顺序扫描光学字符识别文本块得到版面块,并选择当前版面块的最近版面块作为下一个链接版面块。然而,现有技术中的版面块排序方法,对版面块的位置坐标比较敏感,仅适用于版面块布局相对固定的图像,对于某些相关内容分布在距离较远的版面块中的情况,排序准确率较低。
[0004]可见,现有技术中的版面块排序方法还需要改进。

技术实现思路

[0005]本申请实施例提供一种版面块排序的方法,有助于提升版面块排序的准确率。
[0006]第一方面,本申请实施例提供了一种版面块排序的方法,包括:
[0007]根据至少两个待排序版面块的空间信息,生成版面块空间信息序列,其中,所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的;
[0008]通过预先训练的神经网络模型的编码网络模块,对所述版面块空间信息序列进行特征提取和编码处理,获取所述版面块空间信息序列对应的特征编码序列,其中,所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应;
[0009]通过所述神经网络模型的解码网络模块,对所述特征编码序列进行排序预测,得到各所述待排序版面块的排序结果。
[0010]第二方面,本申请实施例提供了一种版面块排序的装置,包括:
[0011]版面块空间信息序列生成模块,用于根据至少两个待排序版面块的空间信息,生成版面块空间信息序列,其中,所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的;
[0012]特征编码序列获取模块,用于通过预先训练的神经网络模型的编码网络模块,对所述版面块空间信息序列进行特征提取和编码处理,获取所述版面块空间信息序列对应的特征编码序列,其中,所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应;
[0013]排序模块,用于通过所述神经网络模型的解码网络模块,对所述特征编码序列进行排序预测,得到各所述待排序版面块的排序结果。
[0014]第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的版面块排序的方法。
[0015]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的版面块排序的方法的步骤。
[0016]本申请实施例公开的版面块排序的方法,通过根据至少两个待排序版面块的空间信息,生成版面块空间信息序列,其中,所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的;通过预先训练的神经网络模型的编码网络模块,对所述版面块空间信息序列进行特征提取和编码处理,获取所述版面块空间信息序列对应的特征编码序列,其中,所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应;通过所述神经网络模型的解码网络模块,对所述特征编码序列进行排序预测,得到各所述待排序版面块的排序结果,有助于提升版面块排序的准确率。
[0017]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0018]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0019]图1是本申请实施例一的版面块排序的方法流程示意图;
[0020]图2是图像切割得到的版面块示意图;
[0021]图3是本申请实施例一中所述的神经网络模型结构示意图;
[0022]图4是本申请实施例一中神经网络模型的解码网络模块结构示意图;
[0023]图5是本申请实施例一的版面块排序的方法另一流程示意图;
[0024]图6是采用现有技术中的版面块排序的方法对图2中所示的版面块进行排序的排序结果示意图;
[0025]图7是采用本申请实施例公开的版面块排序的方法对图2中所示的版面块进行排序的排序结果示意图;
[0026]图8是本申请实施例二的版面块排序的装置结构示意图之一;
[0027]图9是本申请实施例二的版面块排序的装置结构示意图之二
[0028]图10示意性地示出了用于执行根据本申请的方法的电子设备的框图;以及
[0029]图11示意性地示出了用于保持或者携带实现根据本申请的方法的程序代码的存储单元。
具体实施方式
[0030]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0031]实施例一
[0032]本申请实施例公开的一种版面块排序的方法,如图1所示,所述方法包括:步骤110至步骤130。
[0033]步骤110,根据至少两个待排序版面块的空间信息,生成版面块空间信息序列,其中,所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的。
[0034]本申请实施例中所述的版面块排序的方法,用于对光学字符识别领域中,对一副图像进行扫描和版面块切割后,得到的若干版面块进行排序,便于后续任务基于排序的版面块进行图像内容识别,或者执行其他操作。
[0035]本申请实施例中,对从一幅目标图像中切割得到版面块的具体实施方式不做限定。该目标图像经过图像扫描和版面切割处理后,可以得到该图像内包括的各个版面块的空间信息。本申请的一些实施例中,版面块的空间信息用于标识版面块在图像中矩形区域的位置和尺寸,例如:所述空间信息可以表示为版面块的左上角和右下角坐标;还可以表示为版面块左下角和右上角坐标;又或者,还可以表示为版面块的任意3个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种版面块排序的方法,其特征在于,包括:根据至少两个待排序版面块的空间信息,生成版面块空间信息序列,其中,所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的;通过预先训练的神经网络模型的编码网络模块,对所述版面块空间信息序列进行特征提取和编码处理,获取所述版面块空间信息序列对应的特征编码序列,其中,所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应;通过所述神经网络模型的解码网络模块,对所述特征编码序列进行排序预测,得到各所述待排序版面块的排序结果。2.根据权利要求1所述的方法,其特征在于,所述解码网络模块基于指针网络搭建,所述通过所述神经网络模型的解码网络模块,对所述特征编码序列进行排序预测,得到各所述待排序版面块的排序结果,包括:通过所述神经网络模型的解码网络模块,基于注意力机制对所述特征编码序列进行排序预测,得到所述各所述待排序版面块的排序结果。3.根据权利要求2所述的方法,其特征在于,所述通过所述神经网络模型的解码网络模块,基于注意力机制对所述特征编码序列进行排序预测,得到所述各所述待排序版面块的排序结果,包括:对所述特征编码序列中的版面块特征向量进行平均池化处理,得到所述特征编码序列的全局特征向量;以所述全局特征向量、动态确定的第一向量和所述特征编码序列,作为所述解码网络模块的输入,通过所述神经网络模型的解码网络模块对所述特征编码序列进行N轮次排序预测,分别得到进行每轮次所述排序预测输出的一个所述待排序版面块的排序结果;其中,N的取值等于所述待排序版面块数量减一;进行第一轮次排序预测时,所述第一向量为零向量;进行第M轮次排序预测时,所述第一向量为对各所述版面块特征向量以对应权重进行加权求和得到的,其中,各所述版面块特征向量对应的权重为:进行第M

1轮次排序预测时计算得到的与所述版面块特征向量匹配的注意力系数,M为大于1小于等于N的整数;聚合进行每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果,得到所述至少两个待排序版面块的排序结果,其中,每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果用于:指示与当前轮次匹配的版面块排序位置处的所述待排序版面块。4.根据权利要求3所述的方法,其特征在于,以所述全局特征向量、动态确定的第一向量和所述特征编码序列,作为所述解码网络模块的输入,通过所述神经网络模型的解码网络模块对所述特征编码序列进行一个轮次的排序预测,包括:对动态确定的第一向量和所述全局特征向量进行拼接,得到用于当前轮次排序预测的第二向量;通过所述神经网络模型的解码网络模块中的注意力机制网络,分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分;根据所述相关性得分,获取与相应版面块特征向量匹配的注意力系数;将取值最大的所述注意力系数匹配的所述版面块特征向量,确定为目标版面块特征向量,将所述目标版面块特征向量对应的所述待排序版面块,确定为当前轮次排序预测输出
的待排序版面块的排序结果。5.根据权利要求4所述的方法,其特征在于,所述通过所述神经网络模型的解码网络模块中的注意力机制网络,分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分,包括:通过所述神经网络模型的解码网络模块中的注意力机制网络,对所述第二向量进行计算,得到当前轮次排序预测的单次查询;以及,通过所述注意力机制网络,对所述特征编码序列中每...

【专利技术属性】
技术研发人员:黄荔刘正珍王亚萌韦秋华
申请(专利权)人:汉王科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1