倾斜文本方向分类方法、装置、终端设备和可读存储介质制造方法及图纸

技术编号:31921794 阅读:24 留言:0更新日期:2022-01-15 13:05
本申请实施例提供一种倾斜文本方向分类方法、装置、终端设备和可读存储介质,该方法包括:将待检测图片输入已训练的倾斜文本检测模型,预测输出所述图片中文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本串的旋转矩形的两个顶点坐标;选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。该方法避免了将文本方向判定作为独立功能模块实现,节省了方向分类任务相关的模型参数开销、训练开销、预测开销及后续计算开销等。开销及后续计算开销等。开销及后续计算开销等。

【技术实现步骤摘要】
倾斜文本方向分类方法、装置、终端设备和可读存储介质


[0001]本申请涉及文本图像处理
,尤其涉及一种倾斜文本方向分类方法、装置、终端设备和可读存储介质。

技术介绍

[0002]随着智能手机、人工智能、深度学习等领域的快速发展,图像文字识别OCR技术近年来得到广泛应用。人们使用手机拍摄各类包含文字的图像,如单证、票据、文档、试题、自然场景等,利用OCR技术从图像中识别出文字,快捷获取需要的信息。人们用手机拍摄图像具有一定随意性和不规范性,导致图像中文字倾斜的可能性很大,同时图像可能存在方向旋转,进一步影响了图像文字的方向。无论基于传统图像算法还是基于深度学习的文字识别技术都需要获取到正向的文字再进行识别,因此图像文字方向判断或分类是文字识别中重要一环。
[0003]现有图像文字方向分类方法通常需要独立的功能模块来支持,以基于深度学习路线的方法为例,即使用独立的文字方向分类模型来单独处理。由于作为独立的功能模块,应用部署时需要额外增加一个环节,计算开销和资源开销更大。

技术实现思路

[0004]本申请实施例提供一种倾斜文本方向分类方法、装置、终端设备和可读存储介质,该方法避免了将文本方向判定作为独立功能模块实现,节省了方向分类任务相关的模型参数开销、训练开销、预测开销及后续计算开销等。
[0005]第一方面,本申请实施例提供了一种倾斜文本方向分类方法,包括:
[0006]将待检测图片输入已训练的倾斜文本检测模型,预测输出所述图片中文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本串的旋转矩形的两个顶点坐标;
[0007]选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;
[0008]根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。
[0009]在一种实施方式中,所述旋转矩形的两个顶点记为第一顶点和第二顶点,其中,所述第一顶点和所述第二顶点分别定义为所述旋转矩形在被包围文本处于转正状态下的左上顶点和右上顶点;所述根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果,包括:
[0010]利用所述旋转矩形的所述第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度;
[0011]根据预先定义的多个预设方向及各自对应的指定角度区间,确定所述倾斜角度所在的角度区间,将所述倾斜角度所在的角度区间所对应的预设方向作为所述旋转矩形的方向分类结果。
[0012]在一种实施方式中,所述利用所述旋转矩形的第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度,包括:
[0013]根据所述旋转矩形的第一顶点和第二顶点的坐标按照斜率公式计算得到一个斜率值;
[0014]根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式;
[0015]根据所述斜率值和所述选取的角度计算公式,计算得到所述旋转矩形的倾斜角度。
[0016]在一种实施方式中,所述根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式,包括:
[0017]当第一顶点的横坐标小于第二顶点的横坐标,则选取第一角度计算公式,所述第一角度计算公式为:
[0018]θ=arctan(K)*180/π;
[0019]其中,θ为所述旋转矩形的倾斜角度;K为斜率值;
[0020]当第一顶点的横坐标大于第二顶点的横坐标,且第一顶点的纵坐标小于等于第二顶点的纵坐标,则选取第二角度计算公式,所述第二角度计算公式为:
[0021]θ=180
°
+arctan(K)*180/π;
[0022]当第一顶点的横坐标大于第二顶点的横坐标,且第一顶点的纵坐标大于第二顶点的纵坐标,则选取第三角度计算公式,所述第三角度计算公式为:
[0023]θ=

180
°
+arctan(K)*180/π。
[0024]在一种实施方式中,所述多个预设方向包括第一方向至第四方向,其中,所述第一方向至所述第四方向各自对应的指定角度区间依次为(

45
°
,45
°
]、(45
°
,135
°
]、(

180
°


135
°
]∪(135
°
,180
°
]、以及(

135
°


45
°
]。
[0025]在一种实施方式中,所述倾斜文本检测模型的预先训练过程,包括:
[0026]获取包含倾斜文本的多张原始图片,并以文本串为单位对每张原始图片中的所有文本区域按照图片中文本被转正的状态下进行包围框标注,得到带标注的多张训练图片;
[0027]对所述带标注的多张训练图片按照多个预设方向分类进行旋转数据增广,得到带更新标注的若干增广图片,所述若干增广图片和所述多张训练图片构成训练图像集;
[0028]利用所述训练图像集对构建的神经网络模型进行倾斜文本检测训练,并在所述神经网络模型满足预设收敛条件时,停止训练,得到训练好的倾斜文本检测模型。
[0029]在一种实施方式中,所述根据各个所述文本方向分类结果确定所述图片的最终文本方向分类,包括:
[0030]通过投票机制将所有所述文本方向分类结果中占比最高的一个文本方向分类,作为所述图片的最终文本方向分类。
[0031]第二方面,本申请实施例提供了一种倾斜文本方向分类装置,包括:
[0032]预测输出模块,用于将待检测图片输入已训练的文本检测模型,预测输出所述图片中各文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本的旋转矩形的两个顶点坐标;
[0033]方向分类计算模块,用于选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;
[0034]方向分类确定模块,用于根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。
[0035]第三方面,本申请实施例提供了一种终端设备,所述终端设备包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施所述的倾斜文本方向分类方法。
[0036]第四方面,本申请实施例提供了一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上执行时,实施所述的倾斜文本方向分类方法。
[0037]本申请的实施例具有如下有益效果:
[0038]本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种倾斜文本方向分类方法,其特征在于,包括:将待检测图片输入已训练的倾斜文本检测模型,预测输出所述图片中文本所在区域的文本包围框信息,所述文本包围框信息包括用于包围相应文本串的旋转矩形的两个顶点坐标;选取预设比例数量的文本包围框,并根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果;根据各个所述文本方向分类结果确定所述图片的最终文本方向分类。2.根据权利要求1所述的倾斜文本方向分类方法,其特征在于,所述旋转矩形的两个顶点记为第一顶点和第二顶点,其中,所述第一顶点和所述第二顶点分别定义为所述旋转矩形在被包围文本处于转正状态下的左上顶点和右上顶点;所述根据所述旋转矩形的两个顶点的坐标按照包围框方向分类算法分别计算所述选取的各个文本包围框的文本方向分类结果,包括:利用所述旋转矩形的第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度;根据预先定义的多个预设方向及各自对应的指定角度区间,确定所述倾斜角度所在的角度区间,将所述倾斜角度所在的角度区间所对应的预设方向作为所述旋转矩形的方向分类结果。3.根据权利要求2所述的倾斜文本方向分类方法,其特征在于,所述利用所述旋转矩形的第一顶点和第二顶点的坐标计算所述旋转矩形的倾斜角度,包括:根据所述旋转矩形的第一顶点和第二顶点的坐标按照斜率公式计算得到一个斜率值;根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式;根据所述斜率值和所述选取的角度计算公式,计算得到所述旋转矩形的倾斜角度。4.根据权利要求3所述的倾斜文本方向分类方法,其特征在于,所述根据所述旋转矩形的第一顶点和第二顶点的横坐标的大小比较结果、及所述第一顶点和第二顶点的纵坐标的大小比较结果,选取对应的角度计算公式,包括:当所述第一顶点的横坐标小于所述第二顶点的横坐标,则选取第一角度计算公式,所述第一角度计算公式为:θ=arctan(K)*180/π;其中,θ为所述旋转矩形的倾斜角度;K为斜率值;当所述第一顶点的横坐标大于所述第二顶点的横坐标,且所述第一顶点的纵坐标小于等于所述第二顶点的纵坐标,则选取第二角度计算公式,所述第二角度计算公式为:θ=180
°
+arctan(K)*180/π;当所述第一顶点的横坐标大于所述第二顶点的横坐标,且所述第一顶点的纵坐标大于所述第二顶点的纵坐标,则选取第三角度计算公式,所述第三角度计算公式为:θ=

180
°
+arctan(K)*180/π。5.根据权利要求2所述的倾斜文本方向分类方法,其特征在于,...

【专利技术属性】
技术研发人员:田强张瑞楠李树凯杜新凯
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1