【技术实现步骤摘要】
版面块排序的方法、装置,以及电子设备
[0001]本申请涉及光学字符识别领域,特别是涉及版面块排序的方法、装置,以及,电子设备及计算机可读存储介质。
技术介绍
[0002]在光学字符识别(OCR)应用中,版面分析是至关重要的一步。版面分析主要对图像中的文本,图像,表格信息等进行分析和理解。通常,版面分析首先会切分出图像中的属于文本,图像,表格的区域,这些区域被称为版面块。通过版面分析切分出的版面块是孤立的区域,各个版面块之间缺乏合适的逻辑结构,需要通过对版面块进行排序,之后,基于有序的版面块进行版面内容的理解。可见,版面块排序结果对后续的版面内容分析会产生一定影响。
[0003]现有技术中的版面块排序方法主要包括以下两种:第一种,考虑所有版面块之间全局最小距离,按照行主顺序迭代地版面块进行合并;第二种,按照行主顺序扫描光学字符识别文本块得到版面块,并选择当前版面块的最近版面块作为下一个链接版面块。然而,现有技术中的版面块排序方法,对版面块的位置坐标比较敏感,仅适用于版面块布局相对固定的图像,对于某些相关内容分布在距离较远的版面块中的情况,排序准确率较低。
[0004]可见,现有技术中的版面块排序方法还需要改进。
技术实现思路
[0005]本申请实施例提供一种版面块排序的方法,有助于提升版面块排序的准确率。
[0006]第一方面,本申请实施例提供了一种版面块排序的方法,包括:
[0007]根据至少两个待排序版面块的空间信息,生成版面块空间信息序列,其中,所述至少两个待排序 ...
【技术保护点】
【技术特征摘要】
1.一种版面块排序的方法,其特征在于,包括:根据至少两个待排序版面块的空间信息,生成版面块空间信息序列,其中,所述至少两个待排序版面块是对一幅目标图像进行版面块切割得到的;通过预先训练的神经网络模型的编码网络模块,对所述版面块空间信息序列进行特征提取和编码处理,获取所述版面块空间信息序列对应的特征编码序列,其中,所述特征编码序列中的每个版面块特征向量与所述待排序版面块一一对应;通过所述神经网络模型的解码网络模块,对所述特征编码序列进行排序预测,得到各所述待排序版面块的排序结果。2.根据权利要求1所述的方法,其特征在于,所述解码网络模块基于指针网络搭建,所述通过所述神经网络模型的解码网络模块,对所述特征编码序列进行排序预测,得到各所述待排序版面块的排序结果,包括:通过所述神经网络模型的解码网络模块,基于注意力机制对所述特征编码序列进行排序预测,得到所述各所述待排序版面块的排序结果。3.根据权利要求2所述的方法,其特征在于,所述通过所述神经网络模型的解码网络模块,基于注意力机制对所述特征编码序列进行排序预测,得到所述各所述待排序版面块的排序结果,包括:对所述特征编码序列中的版面块特征向量进行平均池化处理,得到所述特征编码序列的全局特征向量;以所述全局特征向量、动态确定的第一向量和所述特征编码序列,作为所述解码网络模块的输入,通过所述神经网络模型的解码网络模块对所述特征编码序列进行N轮次排序预测,分别得到进行每轮次所述排序预测输出的一个所述待排序版面块的排序结果;其中,N的取值等于所述待排序版面块数量减一;进行第一轮次排序预测时,所述第一向量为零向量;进行第M轮次排序预测时,所述第一向量为对各所述版面块特征向量以对应权重进行加权求和得到的,其中,各所述版面块特征向量对应的权重为:进行第M
‑
1轮次排序预测时计算得到的与所述版面块特征向量匹配的注意力系数,M为大于1小于等于N的整数;聚合进行每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果,得到所述至少两个待排序版面块的排序结果,其中,每轮次所述排序预测得到的所述一个所述待排序版面块的排序结果用于:指示与当前轮次匹配的版面块排序位置处的所述待排序版面块。4.根据权利要求3所述的方法,其特征在于,以所述全局特征向量、动态确定的第一向量和所述特征编码序列,作为所述解码网络模块的输入,通过所述神经网络模型的解码网络模块对所述特征编码序列进行一个轮次的排序预测,包括:对动态确定的第一向量和所述全局特征向量进行拼接,得到用于当前轮次排序预测的第二向量;通过所述神经网络模型的解码网络模块中的注意力机制网络,分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分;根据所述相关性得分,获取与相应版面块特征向量匹配的注意力系数;将取值最大的所述注意力系数匹配的所述版面块特征向量,确定为目标版面块特征向量,将所述目标版面块特征向量对应的所述待排序版面块,确定为当前轮次排序预测输出
的待排序版面块的排序结果。5.根据权利要求4所述的方法,其特征在于,所述通过所述神经网络模型的解码网络模块中的注意力机制网络,分别计算所述特征编码序列中每个版面块特征向量与所述第二向量的相关性得分,包括:通过所述神经网络模型的解码网络模块中的注意力机制网络,对所述第二向量进行计算,得到当前轮次排序预测的单次查询;以及,通过所述注意力机制网络,对所述特征编码序列中每...
【专利技术属性】
技术研发人员:黄荔,刘正珍,王亚萌,韦秋华,
申请(专利权)人:汉王科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。