文本图像处理方法、处理装置、处理系统及可读存储介质制造方法及图纸

技术编号:36606844 阅读:40 留言:0更新日期:2023-02-04 18:30
本发明专利技术提出了一种文本图像处理方法、处理装置、处理系统及可读存储介质。其中,文本图像处理方法包括:获取文本图像集,文本图像集中的多个文本图像包括多个具有旋转角度的目标字段,每个文本图像中目标字段的旋转角度相同;确定多个文本图像集合,多个文本图像集合所对应的旋转角度范围不同;根据旋转角度以及旋转角度范围将多个文本图像划分至多个文本图像集合;根据多个文本图像集合生成多个标签;将标签添加至对应的文本图像集合内的多个文本图像;根据添加多个标签后的多个文本图像对预设模型进行训练;通过训练后的预设模型对待处理文本图像中目标字段的旋转角度进行矫正。正。正。

【技术实现步骤摘要】
文本图像处理方法、处理装置、处理系统及可读存储介质


[0001]本专利技术涉及图像处理领域,具体而言,涉及一种文本图像处理方法、一种文本图像处理装置、一种文本图像处理系统以及一种可读存储介质。

技术介绍

[0002]在现有技术中,对文本图像中文本的旋转角度进行矫正的方法存在以下技术问题:对于文本的旋转角度检测的准确率不高,而且方法复杂繁琐。

技术实现思路

[0003]本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。
[0004]为此,本专利技术的第一方面在于提出了一种文本图像处理方法。
[0005]本专利技术的第二方面在于提出了一种文本图像处理装置。
[0006]本专利技术的第三方面在于提出了一种文本图像处理系统。
[0007]本专利技术的第四方面在于提出了一种可读存储介质。
[0008]有鉴于此,根据本专利技术的一个方面,提出了一种文本图像处理方法,包括:获取文本图像集,文本图像集中的多个文本图像包括多个具有旋转角度的目标字段,每个文本图像中目标字段的旋转角度相同;确定多个文本图像集合,多个文本图像集合所对应的旋转角度范围不同;根据旋转角度以及旋转角度范围将多个文本图像划分至多个文本图像集合;根据多个文本图像集合生成多个标签;将标签添加至对应的文本图像集合内的多个文本图像;根据添加多个标签后的多个文本图像对预设模型进行训练;通过训练后的预设模型对待处理文本图像中目标字段的旋转角度进行矫正。
[0009]首先获取用于训练的文本图像集,在文本图像集中包括多个种类的文本图像,具体地,文本图像可以是不同类型的票据图像,例如出租车发票、火车票等具有不同文本分布和排版结构的图像;随后对获取到的多个文本图像进行设计,并制作成可用于预设模型进行训练的文本图像。
[0010]进一步地,文本图像包括多个具有旋转角度的目标字段,文本图像中的目标字段可以是文本图像中具有特征信息的字段,用户可根据需要对文本图像的信息进行限定,进而对文本图像中的目标字段进行限定;旋转角度为目标字段的排布方向与水平方向之间的倾斜角度,在同一个图像中,目标字段的旋转角度相同,进一步地,同一个图像中的任何字段,也就是文本图像中的文本字段,它们的旋转角度也均相同。
[0011]当获取到多个种类的文本图像后,首先确定多个文本图像集合并将多个文本图像划分至多个文本图像集合,具体地,每个文本图像集合代表一个文本图像的类别,不同类别的文本图像之间目标字段的旋转角度不同,由于每个文本图像的目标字段均有旋转角度,在下游票据OCR(Optical Character Recognition光学字符识别)任务中,对于文本图像中目标字段旋转角度的识别,当文本图像的目标字段与水平方向的旋转角度相差在10度角以内时,对识别任务最终的识别效果影响减小,也就是对识别准确率的影响较小,因此,为了
确保识别的准确率,以及减小计算量,应该将相近旋转角度的文本图像划分成一个类别,当对此类别中的多个文本图像旋转角度进行识别时,输出一个旋转角度,进而保证了识别的准确率,减少了计算时间,提高了本技术方案的性价比。
[0012]随后,根据多个文本图像集合生成多个标签。
[0013]在本申请技术方案中,标签用于指示不同文本图像类别中,文本图像的旋转角度的特征,由于属于不同文本图像类别的文本图像之间,它们的目标字段的旋转角度不同,因此,通过对不同类别的文本图像添加不同的标签,可以更好的指示不同文本图像类别的文本图像中目标字段的旋转角度之间的区别。
[0014]当对多个文本图像中的每个添加完对应的标签后,将其作为预设模型的训练文本图像,对预设模型进行训练,以使得预设模型可对不同类别中的文本图像中的不同旋转角度的目标字段作为学习目标进行学习并通过训练后的预设模型对要进行处理的文本图像中的目标字段的旋转角度进行矫正。
[0015]在本申请技术方案中,矫正也就是调整文本图像中的目标字段的排布方向与水平方向之间的倾斜角度,以使得文本图像中的目标字段的方向与水平方向一致。
[0016]在本申请技术方案中,通过将多个文本图像划分到多个文本图像集合,提高了对文本图像中目标字段识别的准确性。
[0017]而通过为多个第二文本图像集以及多个第一文本图像集中的文本图像添加多个不同的标签,能够为不同的目标字段的旋转角度添加不同的标识便于对预设模型进行训练,提高了训练速度以及训练效果;同时,本专利技术的文本图像处理方法,通过将多个文本图像进行类别划分、添加标签处理,并将添加标签后的文本图像对预设模型进行训练,简化了文本图像处理过程,进一步提高了文本图像处理速度,减小了资源的消耗。
[0018]进一步地,当文本图像的种类发生改变或是文本图像中目标字段的类别发生改变时,可对获取到的多个文本图像进行更新,以获取到改变后的文本图像,进而提高了预设模型的泛化能力,也满足了预设模型对于文本图像处理的时效性的要求,提高了文本图像处理方法的处理效果以及训练后的预设模型的处理性能,同时,输出的是矫正后的待处理文本图像,满足了下游票据OCR任务对于文本图像的精度要求,进而利于OCR任务集成。
[0019]进一步地,在将多个文本图像划分至多个文本图像集合后,还要对多个文本图像进行尺度调整,也就是将文本图像调整至一个标准的尺寸大小,以避免尺度不一致的文本图像对预设模型的训练造成影响,进而影响预设模型检测待处理文本图像中目标字段的旋转角度的准确率。
[0020]通过本技术方案文本图像处理方法,可快速输出当前待检测文本图像中目标字段的旋转角度,同时,拥有较高的准确率,同时,此方法可支持任意角度的检测,误差较小。
[0021]同时,此文本图像处理方法可随时对文本图像集中的图像进行更新,实现文本图像集的自动扩充和生成,进而使得此文本图像处理方法可满足多种类别的文本图像检测的需要,经过训练的模型具有较强的泛化能力,应用范围广。
[0022]根据本专利技术的上述文本图像处理方法,还可以具有以下技术特征:
[0023]在上述技术方案中,根据旋转角度以及旋转角度范围将多个文本图像划分至多个文本图像集合,具体包括:确定多个文本图像中多个目标字段的多个旋转角度;确定多个文本图像集合的多个旋转角度范围;根据多个旋转角度范围以及多个旋转角度确定多个文本
图像所在的多个文本图像集合。
[0024]在该技术方案中,对多个文本图像划分至多个文本图像集合的过程进行了进一步说明,具体地,确定多个文本图像中多个目标字段的多个旋转角度,也就是每个目标字段的旋转角度,随后,确定每个文本图像集合的旋转角度范围,并将目标字段的旋转角度与文本图像集合的旋转角度范围进行比照,当目标字段的旋转角度落在了某一个文本图像集合的旋转角度范围时,此目标字段代表的文本图像即被划分至对应的文本图像集合内,通过根据文本图像集合的旋转角度范围与目标字段的旋转角度确定文本图像被划分到的文本图像集合,实现了文本图像的准确划分,减少了文本图像的具体角度种类,提高了对文本图像中目标字段识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像处理方法,其特征在于,包括:获取文本图像集,所述文本图像集中的多个文本图像包括多个具有旋转角度的目标字段,每个文本图像中目标字段的旋转角度相同;确定多个文本图像集合,所述多个文本图像集合所对应的旋转角度范围不同;根据所述旋转角度以及所述旋转角度范围将所述多个文本图像划分至所述多个文本图像集合;根据所述多个文本图像集合生成多个标签;将所述标签添加至对应的所述文本图像集合内的多个文本图像;根据所述添加多个标签后的所述多个文本图像对预设模型进行训练;通过训练后的所述预设模型对待处理文本图像中目标字段的旋转角度进行矫正。2.根据权利要求1所述的文本图像处理方法,其特征在于,所述根据所述旋转角度以及所述旋转角度范围将所述多个文本图像划分至所述多个文本图像集合,具体包括:确定所述多个文本图像中所述多个目标字段的多个旋转角度;确定所述多个文本图像集合的多个旋转角度范围;根据所述多个旋转角度范围以及所述多个旋转角度确定所述多个文本图像所在的所述多个文本图像集合。3.根据权利要求1所述的文本图像处理方法,其特征在于,所述将所述标签添加至对应的所述文本图像集合内的多个文本图像前,所述文本图像处理方法还包括:根据所述多个文本图像的多个旋转角度,确定所述多个文本图像对应的图像类型,所述图像类型包括非填充图像类型与填充图像类型;对所述填充图像类型的多个文本图像进行填充处理。4.根据权利要求3所述的文本图像处理方法,其特征在于,所述根据所述多个文本图像的多个旋转角度,确定所述多个文本图像对应的图像类型,具体包括:确定所述非填充图像类型的目标角度与预设范围;在所述多个文本图像的多个旋转角度与所述目标角度相等的情况下,确定所述多个文本图像属于所述非填充图像类型;在所述多个文本图像的多个旋转角度与所述目标角度不相等的情况下,确定所述多个文本图像属于所述填充图像类型;所述目标角度为90
°
的N倍,N的取值范围为1≤N≤4。5.根据权利要求3或...

【专利技术属性】
技术研发人员:刘志强
申请(专利权)人:用友网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1