一种文本图片自动矫正方法技术

技术编号：40675180 阅读：4 留言：0更新日期：2024-03-18 19:12

本发明专利技术提出了一种文本图片自动矫正方法，具体步骤为：S1：计算图片分辨率，通过内差值法对图片进行等比例放大；S2：通过灰度处理和高斯滤波去噪调整图片锐度和对比度；S3：采用矩形拟合算法实现边缘裁剪，得到待识别的图像；S4：利用文本区域检测器识别得到待识别的图像中文本区域的位置，利用本区域识别网络对文本进行识别，得到文本区块；S5：计算文本区块的倾斜角度；S6：确定参照区块，利用参照区块辅助调整文本区块；S7：设定倾斜象限，依据倾斜角度n，结合参照区块区分文本区块所在象限并计算旋转角度；S8：根据旋转角度，以目标区块的中心为原点对图片进行旋转得到矫正后的图片。本发明专利技术实现了对文本的自动矫正，提高效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本矫正的，尤其涉及一种文本图片自动矫正方法。

技术介绍

1、在日常的工作中，需搜集文档，而文档的来源有纸质、图片的情况下，需要先将纸质文档拍摄或扫描进行电子化，然后将图片上传到电子设备中，经常会倾斜、曝光、昏暗、模糊、背景干扰等情况，影响人们的视觉体验。现有的文本图片自动矫正方法针对倾斜、曝光、昏暗、模糊图片无法识别，文本外区域干扰识别，360度各种倾斜情况下不能全识别，容易出现文本倒置等情况。随着ocr、图片处理、深度学习技术的发展，使我们的工作和生活越来越智能化，本文将ocr、图片处理、深度学习技术应用在文本图片矫正方面，提供一种自动化、智能化矫正方法。

2、申请号为：202211520195.3的专利技术专利公开了一种弯曲文本矫正方法，根据分割图中连通区域的位置信息，对弯曲本文进行矫正，操作过程较为简单，不需要构建任何模型，矫正效果较佳，且无需进行单字符切分，避免了对文本内容的依赖，有助于对原始图片进行恢复，同时较佳的文本矫正结果也有利于提高文本识别的准确率，适用于多种文本图片场景，具有较强的普适性。此外，该专利技术方法在分割图中仅对弯曲本文进行矫正，有效降低了未弯曲文本因被矫正而产生变形的可能性。上述专利针对文档中局部的弯曲文本进行矫正，具有一定的局限性，对于整体倾斜角度较大、曝光、昏暗、模糊、背景干扰等情况下，矫正准确度不高。

技术实现思路

1、针对倾斜、曝光、昏暗、模糊、背景干扰等因素导致文本图片无法识别、影响视觉体验等的技术问题，本专利技术

2、为了达到上述目的，本专利技术的技术方案是这样实现的：一种文本图片自动矫正方法，具体步骤为：

3、s1：计算图片分辨率，通过内差值法对图片进行等比例放大；

4、s2：通过灰度处理和高斯滤波去噪调整图片锐度和对比度；

5、s3：采用矩形拟合算法实现边缘裁剪，得到待识别的图像；

6、s4：利用文本区域检测器识别得到待识别的图像中文本区域的位置，利用本区域识别网络对文本进行识别，得到文本区块；

7、

8、s5：计算文本区块的倾斜角度；

9、s6：确定参照区块，利用参照区块辅助调整文本区块；

10、s7：设定倾斜象限，依据倾斜角度n，结合参照区块区分文本区块所在象限并计算旋转角度；

11、

12、s8：根据旋转角度，以目标区块的中心为原点对图片进行旋转得到矫正后的图片。

13、步骤s1通过内差值法对图片进行等比例放大的具体方法为：将原始图片等比例放大n倍，并在水平和垂直两个方向分别进行一次线性插值，线性插值由原图片位置在它附近的四个邻近像素的值通过加权平均计算得出的。

14、步骤s2所述通过灰度处理和高斯滤波去噪调整图片锐度和对比度的具体方法为：

15、s21：利用加权法将图片中每个像素rgb三个通道的值分别乘以权重系数0.6，将rgb三个通道加权后的值相加作为灰度图片的像素值，处理图片中所有的像素点，修改为灰度图片的像素值，得到灰度图片；

16、s22：利用高斯滤波法对图片进行去噪处理，对整幅图片的每个像素进行加权平均，高斯滤波函数为：

17、

18、其中，x和y表示图像中的像素位置，x为像素位置的横坐标，y为像素位置的纵坐标，σ表示高斯函数的标准差；

19、s23：计算图片梯度的幅值和方向，应用锐化滤波器根据计算出的梯度幅值和方向锐化图片，利用非极大值抑制法消除噪声，随后将图片和锐化后的图片进行融合，得到最终的锐化图片；

20、s24：利用公式o(r,c)＝i(r,c)γ*255调整图片的对比度，其中，i(r,c)为归一化后的像素值，γ为图像的对比度参数。

21、步骤s3所述基于零交叉的边缘检测方法实现边缘裁剪的具体方法为：

22、s31：首先利用sobel算子对图片中的每个像素进行处理，随后利用canny算子处理图片；

23、s32：利用加权梯度算子的8个边缘模板对图片进行边缘检测，判断边缘方向；

24、s33：采用矩形拟合算法将边缘检测获取的离线的点集合成矩形，通过计算点集的最小矩形包围盒，将点集转换成一个矩形区域；

25、s34：根据斜率和截距的值，将矩形区域分成若干个子集，每个子集代表一条直线；

26、s35：对于每个子集，找到该直线的最小矩形包围盒，即该矩形的边与直线平行，并且该矩形覆盖了该直线上的所有点，该矩形包围盒为该直线的最小矩形包围盒；

27、s36：将所有直线的最小矩形包围盒合并成一个大矩形，即可得到整个点集的最小矩形包围盒；

28、s37：点集的最小矩形包围盒的四个顶点为p1、p2、p3、p4，将以p1、p2、p3、p4四个点包围的矩形内的所有像素点拷贝到新画布并保存图片，实现边缘裁剪，得到待识别的图像。

29、步骤s4所述利用本区域识别网络对文本进行识别的具体方法为：

30、s41：采用文本区域检测器对整个图像进行分割，然后通过阈值跟踪分割结果，得到处理后文本区域的位置；

31、s42：对文本检测区块，发送到本区域识别网络中进行识别以得到文本区块文字内容及位置。

32、步骤s5所述计算文本区块的倾斜角度的方法为：

33、s51：提取文本区块中最长的区块，设定带区块为目标区块；

34、s52：设定目标区块长边的两个端点坐标为p1(x1,y1)、p2(x2,y2)，以p1的y轴坐标、p2的x轴坐标组成p3(x2,y1)，以p1、p2、p3三个点组成了直角三角形；

35、s53：计算直角三角形边长l1、l2，利用公式：计算与l1临边的锐角角度n，即为区块的倾斜角度。

36、步骤s6所述确定参照区块的具体方法为：选取图片最上方或最下方的文本区块为参照区块。

37、步骤s7所述结合参照区块区分文本区块所在象限并计算旋转角度的具体方法为：

38、s71：取参照区块的最长边s1上的一点k1，在目标区块最长的边s2上选取一点k2，使k2到k1的距离最短，设k1的坐标为(x3，y3)，k2的坐标为(x4，y4)；

39、s72：根据参照区块与目标区块的位置关系与倾斜方向设定倾斜象限；

40、s73：根据对比x3、x4的大小，y3、y4的大小判断目标区块所在极限，并计算旋转角度。

41、步骤s72所述根据参照区块与目标区块的位置关系与倾斜方向设定倾斜象限的方法为：

42、设定目标区块高于参照区块且左倾为第一象限；

43、设定目标区块高于参照区块且右倾为第二象限；

44、设定目标区块低于参照区块且右倾为第三象限；

45、设定目标区本文档来自技高网...

【技术保护点】

1.一种文本图片自动矫正方法，其特征在于，具体步骤为：

2.根据权利要求1所述的文本图片自动矫正方法，其特征在于，步骤S1通过内差值法对图片进行等比例放大的具体方法为：将原始图片等比例放大n倍，并在水平和垂直两个方向分别进行一次线性插值，线性插值由原图片位置在它附近的四个邻近像素的值通过加权平均计算得出的。

3.根据权利要求2所述的文本图片自动矫正方法，其特征在于，步骤S2所述通过灰度处理和高斯滤波去噪调整图片锐度和对比度的具体方法为：

4.根据权利要求3所述的文本图片自动矫正方法，其特征在于，步骤S3所述基于零交叉的边缘检测方法实现边缘裁剪的具体方法为：

5.根据权利要求2-4中任意一项所述的文本图片自动矫正方法，其特征在于，步骤S4所述利用本区域识别网络对文本进行识别的具体方法为：

6.根据权利要求5所述的文本图片自动矫正方法，其特征在于，步骤S5所述计算文本区块的倾斜角度的方法为：

7.根据权利要求6所述的文本图片自动矫正方法，其特征在于，步骤S6所述确定参照区块的具体方法为：选取图片最上方或最下方的文本区块为参照区块。

8.根据权利要求7所述的文本图片自动矫正方法，其特征在于，步骤S7所述结合参照区块区分文本区块所在象限并计算旋转角度的具体方法为：

9.根据权利要求8所述的文本图片自动矫正方法，其特征在于，步骤S72所述根据参照区块与目标区块的位置关系与倾斜方向设定倾斜象限的方法为：

10.根据权利要求8或9所述的文本图片自动矫正方法，其特征在于，步骤S73所述判断目标区块所在极限，并计算旋转角度的方法为：

...

【技术特征摘要】

1.一种文本图片自动矫正方法，其特征在于，具体步骤为：

2.根据权利要求1所述的文本图片自动矫正方法，其特征在于，步骤s1通过内差值法对图片进行等比例放大的具体方法为：将原始图片等比例放大n倍，并在水平和垂直两个方向分别进行一次线性插值，线性插值由原图片位置在它附近的四个邻近像素的值通过加权平均计算得出的。

3.根据权利要求2所述的文本图片自动矫正方法，其特征在于，步骤s2所述通过灰度处理和高斯滤波去噪调整图片锐度和对比度的具体方法为：

4.根据权利要求3所述的文本图片自动矫正方法，其特征在于，步骤s3所述基于零交叉的边缘检测方法实现边缘裁剪的具体方法为：

5.根据权利要求2-4中任意一项所述的文本图片自动矫正方法，其特征在于，步骤s4所述利用本区域识别网络对文本进...

【专利技术属性】
技术研发人员：苏红伟，吕凤好，何晓明，郑小梦，王志刚，王龙华，翟艳慧，吴浩，吴彦非，
申请(专利权)人：河南众诚信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人