一种文档图像的方向校正方法与装置制造方法及图纸

技术编号:32889285 阅读:15 留言:0更新日期:2022-04-02 12:28
本申请公开了一种文档图像的方向校正方法。寻找输入图像中文档区域的边和四个角点,使用透视变换方法对所述输入图像进行切边和小角度方向校正。将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值;所述偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度。根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进行校正。本申请将文档图像的方向计算问题改为背景类图像、四个大角度方向分类问题,运算速度快。本申请不做每个小角度处理,简化文档图像的方向校正的复杂度,便于神经网络学习。学习。学习。

【技术实现步骤摘要】
一种文档图像的方向校正方法与装置


[0001]本申请涉及一种文档图像的方向校正方法。

技术介绍

[0002]文档图像是指图像格式的文档,通常是由纸质文档采用拍照、扫描等方式转换为图像格式的文档。一般将能够正确阅读文档的方向视为正确方向,有些文档图像的方向并非正确方向,例如颠倒了180度。为了进行浏览阅读、OCR(optical character recognition,光学字符识别)识别等操作,文档图像的方向需要校正为正确方向。
[0003]申请公布号为CN112329777A、申请公布日为2021年2月5日的中国专利技术专利申请《基于方向检测的文字识别方法、装置、设备及介质》公开了:对切片样本进行旋转处理,得到第一训练样本;利用第一训练样本训练MobileNet

v2网络,得到文本方向检测模型;当接收到待检测图片时,对待检测图片进行文本位置检测,得到至少一个文字切片;将预处理后的每个文字切片输入至所述文本方向检测模型,并获取文本方向检测模型的输出作为每个文字切片的文本方向。该文献主要涉及文档图像中单行文字的阅读方向检测,而不是整张文档图像的方向检测。

技术实现思路

[0004]本申请所要解决的技术问题是提供一种文档图像的方向校正方法,利用了文档图像中文档区域的信息对图像方向进行判断和快速准确地校正。
[0005]为解决上述技术问题,本申请提出了一种文档图像的方向校正方法,包括如下步骤。步骤S10:寻找输入图像中文档区域的边和四个角点,使用透视变换方法对所述输入图像进行切边和小角度方向校正;如果所述输入图像是文档图像,那么切边后的图像就是所述输入图像的文档区域;所述小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一,输入图像的文档区域与所述四种形态的哪一种最接近,就校正为哪一种形态。步骤S20:将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值;所述偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度。所述角度分类模型采用如下方式得到:(1)收集多张切边后的文档图像以及无文档的背景类图像及相应的方向标签作为训练数据集合;所述切边后的文档图像的实际方向与正确方向的偏差角度或者为0度,或者为90度,或者为180度,或者为270度;所述切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度;所述背景类图像的方向标签表示该张图像为背景类图像;(2)对所述训练数据集合中的部分或全部图像以90度为单位进行随机旋转,并相应地改变旋转后的切边后的文档图像的方向标签,得到增强的训练数据集合;(3)使用所述增强的训练数据集合训练一个角度分类模型,所述角度分类模型用于区分文档图像与背景类图像,还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种。步骤S30:根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进行校正。
[0006]进一步地,所述步骤S10中,如果无法找到输入图像中文档区域的边和四个角点,则表明所述输入图像不是文档图像,退出整个流程。
[0007]进一步地,所述步骤S10中,将偏差角度α定义为从切边后的图像的正确方向开始沿着顺时针方向到切边后的图像的实际方向之间的角度,偏差角度α的取值范围是0度≤α<360度;所述小角度方向校正包括:将0度<α<45度以及315度<α<360度的切边后的图像均校正为α=0度的切边后的图像;将45度<α<135度的切边后的图像均校正为α=90度的切边后的图像;将135度<α<225度的切边后的图像均校正为α=180度的切边后的图像;将225度<α<315度的切边后的图像均校正为α=270度的切边后的图像。
[0008]进一步地,所述小角度方向校正还包括:当α=0度时,不进行小角度校正;当α=45度时,或者校正为为α=0度的切边后的图像,或者校正为α=90度的切边后的图像;当α=135度时,或者校正为为α=90度的切边后的图像,或者校正为α=180度的切边后的图像;当α=225度时,或者校正为为α=180度的切边后的图像,或者校正为α=270度的切边后的图像;当α=315度时,或者校正为为α=270度的切边后的图像,或者校正为α=0度的切边后的图像。
[0009]进一步地,所述步骤S20中,所述角度分类模型采用轻量级神经网络训练得到。
[0010]优选地,所述步骤S20中,所述角度分类模型在训练时,将所述增强的训练数据集合中的所有图像的输入尺寸统一缩放到一个固定尺寸。
[0011]优选地,所述步骤S20中,先将所述切边和小角度方向校正后的图像缩放为所述角度分类模型训练时输入图像的固定尺寸,再将缩放后的所述切边和小角度方向校正后的图像送入所述角度分类模型。
[0012]进一步地,所述步骤S20中,如果所述角度分类模型判定所述切边和小角度方向校正后的图像属于背景类图像,则退出整个流程。
[0013]进一步地,所述步骤S20中,如果所述角度分类模型判定所述切边和小角度方向校正后的图像的偏差角度检测值为0度,则退出整个流程。
[0014]本申请还提出了一种文档图像的方向校正装置,包括切边和小角度方向校正单元、偏差角度检测单元、以及大角度方向校正单元。所述切边和小角度方向校正单元用于寻找输入图像中文档区域的边和四个角点,使用透视变换方法对所述输入图像进行切边和小角度方向校正;如果所述输入图像是文档图像,那么切边后的图像就是所述输入图像的文档区域;所述小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一,输入图像的文档区域与所述四种形态的哪一种最接近,就校正为哪一种形态。所述偏差角度检测单元用于将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值;所述偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度;所述角度分类模型采用如下方式得到:(1)收集多张切边后的文档图像以及无文档的背景类图像及相应的方向标签作为训练数据集合;所述切边后的文档图像的实际方向与正确方向的偏差角度或者为0度,或者为90度,或者为180度,或者为270度;所述切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度;所述背景类图像的方向标签表示该张图像为背景类图像;(2)对所述训练数据集合中的部分或全部图像以90度为单位进行随机旋转,并相应地改变旋转后的切边后的文档图像的方向标签,得到增强的训练数据集合;(3)使用所述增强的训
练数据集合训练一个角度分类模型,所述角度分类模型用于区分文档图像与背景类图像,还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种。所述大角度方向校正单元用于根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进行校正。
[0015]本申请取得的技术效果是:针对文档图像提出了一套快速准本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档图像的方向校正方法,其特征是,包括如下步骤;步骤S10:寻找输入图像中文档区域的边和四个角点,使用透视变换方法对所述输入图像进行切边和小角度方向校正;如果所述输入图像是文档图像,那么切边后的图像就是所述输入图像的文档区域;所述小角度方向校正是指将输入图像的文档区域校正为与正确方向的偏差角度为0度、或90度、或180度、或270度的四种形态之一,输入图像的文档区域与所述四种形态的哪一种最接近,就校正为哪一种形态;步骤S20:将所述切边和小角度方向校正后的图像通过一个角度分类模型得到偏差角度检测值;所述偏差角度检测值仅有四种取值——0度、或90度、或180度、或270度;所述角度分类模型采用如下方式得到:(1)收集多张切边后的文档图像以及无文档的背景类图像及相应的方向标签作为训练数据集合;所述切边后的文档图像的实际方向与正确方向的偏差角度或者为0度,或者为90度,或者为180度,或者为270度;所述切边后的文档图像的方向标签用来记载该张切边后的文档图像的实际方向与正确方向的偏差角度;所述背景类图像的方向标签表示该张图像为背景类图像;(2)对所述训练数据集合中的部分或全部图像以90度为单位进行随机旋转,并相应地改变旋转后的切边后的文档图像的方向标签,得到增强的训练数据集合;(3)使用所述增强的训练数据集合训练一个角度分类模型,所述角度分类模型用于区分文档图像与背景类图像,还用于识别每张文档图像的实际方向与正确方向的偏差角度是四种取值中的哪一种;步骤S30:根据所述偏差角度检测值对所述切边和小角度方向校正后的图像的方向进行校正。2.根据权利要求1所述的文档图像的方向校正方法,其特征是,所述步骤S10中,如果无法找到输入图像中文档区域的边和四个角点,则表明所述输入图像不是文档图像,退出整个流程。3.根据权利要求1所述的文档图像的方向校正方法,其特征是,所述步骤S10中,将偏差角度α定义为从切边后的图像的正确方向开始沿着顺时针方向到切边后的图像的实际方向之间的角度,偏差角度α的取值范围是0度≤α<360度;所述小角度方向校正包括:将0度<α<45度以及315度<α<360度的切边后的图像均校正为α=0度的切边后的图像;将45度<α<135度的切边后的图像均校正为α=90度的切边后的图像;将135度<α<225度的切边后的图像均校正为α=180度的切边后的图像;将225度<α<315度的切边后的图像均校正为α=270度的切边后的图像。4.根据权利要求1所述的文档图像的方向校正方法,其特征是,所述小角度方向校正还包括:当α=0度时,不进行小角度校正;当α=45度时,或者校正为为α=0度的切边后的图像,或者校正为α=90度的切边后的图像;当α=135度时,或者校正为为α=90度的切边后的图像,或者校正为α=180度的切边后的图像;当α=225度时,或者校正为为α=180度的切边后的图像,或者校正为α=270度的...

【专利技术属性】
技术研发人员:刘鹏伟郭丰俊龙腾丁凯张彬镇立新
申请(专利权)人:上海临冠数据科技有限公司上海生腾数据科技有限公司上海盈五蓄数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1