【技术实现步骤摘要】
一种文档图像的梯形畸变矫正方法及装置
本专利技术涉及图像处理
,特别涉及一种文档图像的梯形畸变矫正方法及装置。
技术介绍
随着计算机技术的不断发展,电子版文档凭借其易于便于存储和查找、传播快捷简便等优势,被越来越多的人们所接受。在纸质文档转化为电子文档的过程中,需要借助于扫描仪、相机、智能手机等工具进行拍摄或扫描,在拍摄或扫描的过程中,不可避免的会出现扫描后的文档图像扭曲变形等问题,不利于后续的阅读、文字提取等一系列的后续操作。中国专利申请公开号为CN1582459A,专利技术名称为“矫正梯形畸变的系统及方法”,其技术方案主要先获取投影参数,然后确定投影区域和适合于所述投影区域内部的最佳可视矩形区域,通过一个与存在于最佳可视矩形区域的顶点和投影区域的对应顶点之间的变换对应的畸变变换,特征化由投影引起的畸变。最后,翻转所述畸变变换并将其应用于输入图像,以获得无畸变的投影图像。该对比文件利用投影参数和设备来找到对应的转换顶点,对于没有设备信息的图像来说,这比较难以实现。中国专利申请公开号为CN1025220 ...
【技术保护点】
1.一种文档图像的梯形畸变矫正方法,其特征在于,包括以下步骤:/n步骤S1、获取文档图像;/n步骤S2、对文档图像做预处理;/n步骤S3、将预处理后的文档图像分为文本类、表格类或图形类;/n步骤S4、对不同类型的文档图像,采用不同的检测方法检测其内容的上下左右四个轮廓线;/n步骤S5、对检测到的四个轮廓线进行交点计算,得到文档图像的内容的左上、右上、左下、右下四个边缘点;/n步骤S6、以四个边缘点为远点,以新页面的四个端点为目标点,利用透视变换,完成梯形畸变的矫正。/n
【技术特征摘要】
1.一种文档图像的梯形畸变矫正方法,其特征在于,包括以下步骤:
步骤S1、获取文档图像;
步骤S2、对文档图像做预处理;
步骤S3、将预处理后的文档图像分为文本类、表格类或图形类;
步骤S4、对不同类型的文档图像,采用不同的检测方法检测其内容的上下左右四个轮廓线;
步骤S5、对检测到的四个轮廓线进行交点计算,得到文档图像的内容的左上、右上、左下、右下四个边缘点;
步骤S6、以四个边缘点为远点,以新页面的四个端点为目标点,利用透视变换,完成梯形畸变的矫正。
2.根据权利要求1所述的一种文档图像的梯形畸变矫正方法,其特征在于,还包括后处理的步骤:对矫正后的文档图像,每个边缘均采用背景采样的方法,取得邻近背景色,填充变换后的边缘。
3.根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法,其特征在于,所述的预处理包括但不限于直方图均衡化、噪点过滤、黑边去除和背景消除。
4.根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法,其特征在于,所述的步骤S3具体包括:
步骤S301、先利用文字检测模块,检测文档图像中所有文字行,如果文字行的个数超过设定的第一阈值,则判定该文档图像为文字类文档图像,否则转至步骤S302;
步骤S302、再利用表格检测模块,检测文档图像中所有横向和纵向表格线,如果横向和纵向的表格线个数之和超过第二阈值,则判定该文档图像为表格类文档图像;否则判定为图形类文档图像。
5.根据权利要求4所述的一种文档图像的梯形畸变矫正方法,其特征在于,所述的第一阈值和第二阈值为10。
6.根据权利要求1或2所述的一种文档图像的梯形畸变矫正方法,其特征在于,所述的步骤S4中,对文字类文档图像的内容轮廓线的检测方法包括:
步骤S401、首先查找所有文本行和列,计算得到每一行与每一列的首字位置和末尾字位置;
步骤S402、对于查找到的n行文字,连接任意两个行首字,连接任意两个行末尾字,分别形成n*(n-1)/2根竖直线,利用曲线相似度算法,分别完成行首字竖直线的相似曲线的拟合和行末尾字竖直线的相似曲线的拟合,用拟合的行首字曲线和行末尾字曲线分别作为纵向的左轮廓线和右轮廓线;
步骤S403、对于查找到的m列文字,连接任意两个列首字,连接任意两个列末尾字,分别形成m*(m-1)/2根横直线,利用曲线相似度算法,分别完成列首字横直线的相似曲线的拟合和列末尾字横直线的相似曲线的拟合,用拟合的列首字曲线和列末尾字曲线分别作为横向的上轮廓线和下轮廓线。
7.根据权利要求1或2所述的一种...
【专利技术属性】
技术研发人员:沈来信,孙明东,梁鹤鸣,桂越,李锴,
申请(专利权)人:北京华宇信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。