确定文档图像的旋转角度方法、装置及存储介质制造方法及图纸

技术编号:27537935 阅读:17 留言:0更新日期:2021-03-03 11:27
本公开是关于一种确定文档图像的旋转角度方法、装置及存储介质。确定文档图像的旋转角度方法包括:对文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像。确定多个文本行图像的角度。基于文本行图像多个文本行图像的角度,确定文档图像的基准角度。基于基准角度,确定文档图像的旋转角度。通过本公开提供的确定文档图像的旋转角度方法,能够基于将文档图像裁剪后得到的多个文本行图像及各文本行图像对应的角度,确定文档图像的旋转角度,进而有助于消除文档图像中背景的干扰,降低旋转角度确定的复杂度,从而提高旋转角度的确定精度。确定精度。确定精度。

【技术实现步骤摘要】
确定文档图像的旋转角度方法、装置及存储介质


[0001]本公开涉及计算机图像处理
,尤其涉及一种确定文档图像的旋转角度方法、装置及存储介质。

技术介绍

[0002]随着便携式摄影设备技术的飞速发展,人们可以更加便捷地通过终端拍摄得到较高质量的照片,除了用于记录日常生活中的精彩瞬间,还可以通过对文档进行拍摄,以得到其数字化副本,进而通过光学字符识别(Optical Character Recognition,OCR)技术对其中的文字信息进行提取和识别,用于重要信息的记录和分享。然而,在现实生活中,拍摄得到的文档图像都具有一定的旋转角度,当该角度过大时(如90
°
,180
°
,270
°
),文字识别结果会受到较大影响。如果可以对文档图像的旋转角度进行预测,并据此角度对其进行旋转,可以大幅提高OCR文字识别的精度。
[0003]相关技术中,确定文档图像的旋转角度主要采用基于积神经网络(ConvolutionNeuralNetwork,CNN)对文档图像的旋转角度进行预测和基于文字结构特征的文档图像旋转角度计算两种方式。采用基于CNN对文档图像的旋转角度进行预测时,需先预测文档图像的象限方向,进而将文档图像旋转到指定角度范围区间后,利用OCR网络对此时图片的旋转角度进行预测。但是该方法针对的主要是文档区域占图像主体部分的情形。然而在现实生活中,拍摄得到的文档图像中文档区域占比可能较小且背景区域可能较为复杂,采用该方式确定文档图像的旋转角度,需要对整个文档图像进行网络推理,耗时长,且预测结果的准确度无法确定。而基于文字结构特征的文档图像旋转角度计算方法,主要依赖于各文本行走向检测以及汉字笔画特征提取的准确性,当文档图像中包含的文本行较多时,算法的时间消耗会线性增长,会影响用户的使用体验。且现实生活中的场景多种多样,极其复杂,采用该方法无法保证在实际应用场景中的准确率,算法鲁棒性较差。

技术实现思路

[0004]为克服相关技术中存在的问题,本公开提供一种确定文档图像的旋转角度方法、装置及存储介质。
[0005]根据本公开实施例的第一方面,提供一种确定文档图像的旋转角度方法,包括:对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像。确定所述多个文本行图像的角度,其中,所述文本行图像的角度为所述文本行图像中文本行第一边缘与水平方向之间的夹角。基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度。基于所述基准角度,确定所述文档图像的旋转角度。
[0006]在一实施例中,对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,包括:对所述文档图像中包括的多个文本行分别进行检测得到多个文本检测框,并确定所述多个文本检测框各自所对应的文本行重叠度。对文本行重叠度等于预设重叠度阈值的文本行,采用笔直文本行检测算法进行裁剪,得到文本行图像。对文本行重叠度大于预
设重叠度阈值的文本行,采用弯曲文本行检测算法进行裁剪,得到文本行图像。
[0007]在另一实施例中,采用弯曲文本行检测算法进行裁剪,得到一个或多个文本行图像,包括:将文本检测框的边缘点集划分为上边缘点集以及下边缘点集。将所述上边缘点集中的边缘点进行曲线拟合得到上边缘曲线,并将所述下边缘点集中的边缘点进行曲线拟合得到下边缘曲线。基于所述上边缘曲线和所述下边缘曲线,确定与所述文本检测框对应的文本行宽度范围内的各个中心点坐标。基于所述宽度范围内对应的各个中心点坐标,确定所述文本检测框的裁剪高度。基于所述宽度范围以及所述裁剪高度,将所述文本检测框根据指定宽度进行裁剪,得到多个矩形图像。将所述多个矩形图像沿水平方向进行拼接,得到文本行图像。
[0008]在又一实施例中,所述基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度,包括:基于所述多个文本行图像的角度,对所述多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量。根据聚类后各文本行类别中的文本行图像数量,确定基准类。对所述基准类进行类别判断,得到所述基准类对应的类别,并基于所述基准类对应的类别确定所述文档图像的基准角度。
[0009]在又一实施例中,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。若所述第一数量的文本行类别中文本行图像数量之间的差值大于第一数量阈值,则将所述第一数量的文本行类别中文本行图像数量最多的文本类别,确定为基准类。
[0010]在又一实施例中,所述确定文档图像的旋转角度方法还包括:若所述第一数量的文本行类别中文本行图像数量之间的差值小于或者等于第一数量阈值,则在所述第一数量的文本行类别中选择文本行图像区域平均面积最大的文本行类别,作为基准类。
[0011]在又一实施例中,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别。在所述第一数量的文本行类别中,将文本行图像区域平均面积最大的文本行类别,确定为基准类。
[0012]在又一实施例中,所述对所述基准类进行类别判断,得到所述基准类对应的类别,包括:获取所述基准类对应的文本行图像中第二数量的文本行图像。确定所述第二数量的文本行图像的类别。基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别。其中,所述文本行图像的类别包括正向横排文本行、倒置横排文本行、正向竖排文本行或倒置竖排文本行。
[0013]在又一实施例中,所述确定所述第二数量的文本行图像的类别,包括:将所述基准类中第二数量的文本行图像输入至训练好的文本行图像类别分类模型,得到所述基准类中第二数量的文本行图像的类别。
[0014]在又一实施例中,所述基于所述第二数量的文本行图像的类别对所述基准类进行类别判断,得到所述基准类对应的类别,包括:在所述第二数量的文本行图像中,确定各文本行图像的类别以及各类别对应的文本行图像数量。在所述文本行图像数量最多的类别对应的文本行图像数量大于第二数量阈值的情况下,将所述文本行图像数量最多的类别作为所述基准类对应的类别。
[0015]在又一实施例中,所述确定文档图像的旋转角度方法,还包括:在所述文本行图像数量最多的类别对应的文本行图像数量小于或等于所述第二数量阈值的情况下,将默认类别作为所述基准类对应的类别。
[0016]在又一实施例中,所述基于所述基准角度,确定所述文档图像的旋转角度,包括:根据所述基准类中各文本行图像的角度,确定所述基准类的平均角度。基于所述基准类对应的类别和所述平均角度,确定所述文档图像的旋转角度。
[0017]根据本公开实施例的第二方面,提供一种确定文档图像的旋转角度装置,包括:裁剪单元,用于对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,并确定所述多个文本行图像的角本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定文档图像的旋转角度方法,其特征在于,所述确定文档图像的旋转角度方法包括:对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像;确定所述多个文本行图像的角度,其中,所述文本行图像的角度为所述文本行图像中文本行第一边缘与水平方向之间的夹角;基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度;基于所述基准角度,确定所述文档图像的旋转角度。2.根据权利要求1所述的确定文档图像的旋转角度方法,其特征在于,所述对所述文档图像中包括的文本行进行检测和裁剪,得到多个文本行图像,包括:对所述文档图像中包括的多个文本行分别进行检测得到多个文本检测框,并确定所述多个文本检测框各自所对应的文本行重叠度;对文本行重叠度等于预设重叠度阈值的文本行,采用笔直文本行检测算法进行裁剪,得到文本行图像;对文本行重叠度大于预设重叠度阈值的文本行,采用弯曲文本行检测算法进行裁剪,得到文本行图像。3.根据权利要求2所述的确定文档图像的旋转角度方法,其特征在于,所述采用弯曲文本行检测算法进行裁剪,得到一个或多个文本行图像,包括:将文本检测框的边缘点集划分为上边缘点集以及下边缘点集;将所述上边缘点集中的边缘点进行曲线拟合得到上边缘曲线,并将所述下边缘点集中的边缘点进行曲线拟合得到下边缘曲线;基于所述上边缘曲线和所述下边缘曲线,确定与所述文本检测框对应的文本行宽度范围内的各个中心点坐标;基于所述宽度范围内对应的各个中心点坐标,确定所述文本检测框的裁剪高度;基于所述宽度范围以及所述裁剪高度,将所述文本检测框根据指定宽度进行裁剪,得到多个矩形图像;将所述多个矩形图像沿水平方向进行拼接,得到文本行图像。4.根据权利要求1所述的确定文档图像的旋转角度方法,其特征在于,所述基于所述文本行图像多个文本行图像的角度,确定所述文档图像的基准角度,包括:基于所述多个文本行图像的角度,对所述多个文本行图像进行聚类,得到聚类后的文本行类别,并确定聚类后各文本行类别中的文本行图像数量;根据聚类后各文本行类别中的文本行图像数量,确定基准类;对所述基准类进行类别判断,得到所述基准类对应的类别,并基于所述基准类对应的类别确定所述文档图像的基准角度。5.根据权利要求4所述的确定文档图像的旋转角度方法,其特征在于,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别;若所述第一数量的文本行类别中文本行图像数量之间的差值大于第一数量阈值,则将所述第一数量的文本行类别中文本行图像数量最多的文本类别,确定为基准类。
6.根据权利要求5所述的确定文档图像的旋转角度方法,其特征在于,所述确定文档图像的旋转角度方法还包括:若所述第一数量的文本行类别中文本行图像数量之间的差值小于或者等于第一数量阈值,则在所述第一数量的文本行类别中选择文本行图像区域平均面积最大的文本行类别,作为基准类。7.根据权利要求4所述的确定文档图像的旋转角度方法,其特征在于,所述根据聚类后各文本行类别中的文本行图像数量,确定基准类,包括:在聚类后各文本行类别中,按照文本行图像数量从多到少的顺序,依次确定第一数量的文本行类别;在所述第一数量的文本行类别中,将文本行图像区域平均面积最大的文本...

【专利技术属性】
技术研发人员:刘坚强彭鑫周代国吴鹏杰
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1