【技术实现步骤摘要】
基于贪婪算法的文档图像中干扰线的去除方法
本专利技术属于文档图像的计算机识别技术,具体是一种基于贪婪算法的文档图像中干扰线的去除方法。
技术介绍
文档图像是通过扫描、照相获得的包含大量文字信息的图像资料。一方面这些资料是数字化的文件,很容易保存在计算机的存储器中,方便存储和管理。另一方面,这些文档可以使用OCR软件识别,能够快速获得文档图像中的内容,避免了繁琐的文字输入工作。只包含文字的文档图像,其OCR的识别率非常高,已经在各种领域中得到应用。然而文档中经常包含各种干扰信息,如干扰线。当人们在原始文档上留下横线等来标记文档中的重要内容,或者文档本身就存在各种横线表示需要填写信息或者其他提醒,则文档的OCR的识别率会急剧下降。因此,如何去除文档图像中的干扰线成为文档图像OCR的一个重要的预处理步骤。去除干扰线的以往工作可以分为两类,一类是规则线段,另一类是不规则的手划线。规则线段一般表现为印刷的下划线、表格的边缘线等。Bai等人通过下边线分析获得干扰线的位置,但是该方法只能处理下划线。Shi等人为了去除规则的线段使用 ...
【技术保护点】
1.一种基于贪婪算法的文档图像中干扰线的去除方法,其特征是,包括以下步骤:/na.将文档图像二值化处理,去除部分噪声像素,提取出前景部分的文字和干扰线图像;/nb.将文字和干扰线的线条细化,得到单像素的线条;/nc.干扰线检测:对于横向干扰线,横向单一方向扫描文档图像,识别扫描方向上的中心线,对长度较长的中心线赋予更高的权值,计算出的中心线权值若超过设定阈值,则认为其为干扰线;对于竖向干扰线,通过旋转图像或模板的方式使之变换为横向后,以相同的方法识别;检测横向和竖向的过程中也附带检测了斜向的干扰线;/nd.干扰线去除,通过前景像素与干扰线的距离判断其归属,将属于干扰线的像素 ...
【技术特征摘要】
1.一种基于贪婪算法的文档图像中干扰线的去除方法,其特征是,包括以下步骤:
a.将文档图像二值化处理,去除部分噪声像素,提取出前景部分的文字和干扰线图像;
b.将文字和干扰线的线条细化,得到单像素的线条;
c.干扰线检测:对于横向干扰线,横向单一方向扫描文档图像,识别扫描方向上的中心线,对长度较长的中心线赋予更高的权值,计算出的中心线权值若超过设定阈值,则认为其为干扰线;对于竖向干扰线,通过旋转图像或模板的方式使之变换为横向后,以相同的方法识别;检测横向和竖向的过程中也附带检测了斜向的干扰线;
d.干扰线去除,通过前景像素与干扰线的距离判断其归属,将属于干扰线的像素去除,得到处理后的文档图像。
2.根据权利要求1所述的基于贪婪算法的文档图像中干扰线的去除方法,其特征是,步骤a中二值化的方法是:将大小为m×n的图像分割成ml×nl块,其中每块包含的像素数目为:(m×n)/(ml×nl),所述ml和nl的取值范围是5~10之间的整数;每个小块中的局部阈值使用大津法获得,然后使用线性插值从局部阈值获得每个位置的阈值T(i,j);二值化描述为:
式(1)中B(i,j)表示二值化后各点的取值,I(i,j)表示像素点的灰度值。
3.根据权利要求1所述的基于贪婪算法的文档图像中干扰线的去除方法,其特征是:步骤b中的细化采用matlab中的细化方法(函数bwmorph,参数‘thin’)获得文档文字和干扰线的中心线。
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。