一种文档图像二值化方法技术

技术编号:2942170 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及图像处理与模式识别学技术领域,特别是一种文档图像的二值化方法。针对现有图像二值化技术处理低质量文档图像的能力不足,提出了一种新的文档图像二值化方法,首先对图像进行前背景像素初始标定,在此基础上分析笔划邻域信息,包括灰度信息、梯度信息和几何信息,然后,基于笔划邻域信息对文字笔划进行图像增强,最后在增强后的图像上进行二值化。同时,本发明专利技术还提出了一种快速前背景像素标定方法和一种改进的基于Niblack方法的二值化阈值求取方法,用于上述的二值化方法中。

【技术实现步骤摘要】

本专利技术涉及图像处理与模式识别学
,特别是一种文档图像的二值化方法。
技术介绍
图像二值化是指一种图像处理技术,它将灰度图像转化为单色图像,以便进行进一步的分析和处理。文档图像的应用越来越广泛,我们处理的第一步往往就是将文档图像进行二值化,在此基础上获得文字图像,再进行文字识别工作。图像二值化结果的好坏直接影响文字识别的结果。在文档图像中,光照变化、模糊、分辨率不足等降质现象给二值化带来消极影响。他们往往导致在文字像素附近,很多背景像素与文字像素灰度非常接近。文字局部区域的前背景像素灰度级分布有可能存在相隔紧密甚至发生交叠情况的时候,采用通常的方法很难很好地分离前背景。光学图象在采集过程中存在点扩散效应,是产生文字模糊现象的重要因素之一。当笔划密集,间隔较小的时候,不同笔划之间的空隙会因为扩散作用的影响变得非常模糊,以至难以区分开来。这种情况在光照变化、分辨率较低的情况下会变得更加恶劣化。而对于一些字符笔划较多的语种例如中文的文档来说,笔划密集的情况是常见的,这个情况尤其值得重视。现有的二值化方法在处理文档图像中文字局部区域内前背景图像的灰度直方图存在重叠的情况时,效果均不够理想。通常,把二值化方法分为两类,一类是全局的方法。如Otsu方法,采用最大类方差的方法确定分割阈值。吴坤荣在专利“影响二值化方法”中提出了一种基于像素累积直方图中寻找二值化临界值的作为阈值的二值化方法。徐剑波在专利“一种图像二值化的方法”中提出了一种能面向灰度直方图双峰偏移情况的图像二值化方法。全局阈值的方法实现简单,速度较快,但不能适应光照变化图像,处理质量较差的图像也比较困难。由于仅仅采用单一阈值,全局范围的前背景像素灰度直方图重叠的情况尚且不能处理,对于文字局部区域发生的直方图重叠情况更是无法胜任。另一类是局部自适应的方法,根据图像不同区域的情况,确定不同的阈值,相比全局的方法,分割效果大为提高,一般能够较好完成全局范围的前背景像素灰度直方图重叠的情况下的二值化工作。如Niblack的方法是最经典的自适应二值化方法,该方法基于局部均值和方差直接获得阈值。但是该方法存在背景区域噪声敏感的问题,在文字像素比较稀疏的大块背景区域容易产生大量的噪声。Bersen的方法以局部区域最大值与最小值的中间值为阈值,并基于局部区域对比度来判断区域类别属性。钟自强在专利“灰度图像二值化处理系统和方法”提出了一种基于边界检测的局部阈值计算方法。郭金红在专利“彩色文献图像的自适应二值化方法和设备”提出了一种基于局部行列像素的阈值选取方法。李玉鳞在专利“采用自适应二值化的图像处理方法与设备”中提出了一种新的二值化方法,先将图像分成若干子图像,然后在子图像上基于边缘和灰度统计信息计算阈值,以每个子图像的阈值对每个子图像进行二值化。但这些局部方法要么采取的是一种近似全局方法的策略,局部自适应能力不强。要么在计算阈值时采取的窗口大小一般都基于与文字尺寸相适应的假设,这种假设的基础事实上是不那么可靠的。首先,同一篇文档中,字号的大小通常会有变化,固定窗口大小显然不能很好适应这种变化。其次,当图像质量较差的时候,同一个字符的不同笔划间的亮度也有可能存在差异。因此,总的来说,现有的局部自适应的二值化方法对于局部区域的前背景像素灰度直方图重叠的情况的处理仍然能力不足,表现欠佳。
技术实现思路
本专利技术的目的是,针对现有图像二值化技术处理文档图像中局部范围内前背景像素灰度分布发生重叠的情况能力不足,提出了一种新的文档图像二值化方法,不仅能够胜任普通文档图像的处理,对于光照变化、模糊、分辨率不足等低质量文档图像以及中文文档图像表现出比其它方法优越的性能。具体而言涉及一种灰度文档图像或者经过灰度化后彩色文档图像的二值化方法,可适用于扫描仪或者照相机采集的文档图像的处理和OCR(光学字符识别)应用。为了实现这个目的,本专利技术做出了三项工作,1)提出了一种基于笔划邻域增强的文档图像二值化方法。通过分析文档图像中字符的笔划邻域信息,利用笔划邻域信息对的字符进行图像增强,在此基础上执行文档图像的二值化,从而获得良好的二值化效果。2)本专利技术还提出了一种快速前背景像素标定方法,用于优化本专利技术中的一个步骤。3)在快速前背景像素标定方法中,提出了一种基于Niblack方法改进的求取二值化阈值的方法。基于笔划邻域增强的文档图像二值化方法主要包括以下的基本步骤Step1.图像前背景像素初始标定;Step2.获取笔划邻域信息;Step3.基于笔划邻域信息增强文字笔划;Step4.在笔划增强的图像上进行最终二值化。步骤1的主要目的在于将文档图像的前背景像素区域初步区分出来,对这两类像素进行标定。这里前景指文档图像中的字符像素区域,背景指文档图像的空白像素区域。可以采用一种二值化方法对图像进行一次二值化来实现。这里使用的二值化方法可以是全局的,也可以是局部自适应的方法。本专利技术提出了一种快速标定前背景像素的方法,该方法也可视为一种新的二值化方法,具体步骤如下 Step1.1对图像进行X倍下采样,获得低分辨率图像;Step1.2在低分辨率图像上使用二值化方法获得二值化阈值面;Step1.3对二值化阈值面进行X倍上采样,获得原始分辨率阈值面;Step1.4用原始分辨率阈值面对原始图像二值化,标定前背景像素。本专利技术针对Step1.2提出了一种基于Niblack方法的改进方法求取二值化阈值。Niblack方法是一种经典的二值化方法,该方法以灰度局部均值减去局部方差的加权作为二值化阈值。但它在连续背景区域对噪声敏感,容易产生大量的噪声。本专利技术提出的改进方法通过分析背景区域像素的平均局部方差,计算图像噪声强度,在阈值计算中,用Niblack阈值减去该噪声强度即获得具有较强降噪能力的阈值。其步骤如下Step1.2.1利用Niblack方法对图像进行二值化;Step1.2.2统计背景像素的平均局部方差,以此作为图像噪声强度n的衡量;Step1.2.3用Niblack阈值减去图像噪声强度n,得到新的阈值。步骤2和步骤3是本专利技术的核心部分。在步骤2中,笔划邻域信息主要包括像素的灰度信息、梯度信息和几何信息,以及笔划的几何信息。灰度信息为灰度图像像素的灰度或亮度值,梯度信息指像素与邻域像素比较得到的梯度值和梯度方向。笔划的几何信息主要指笔划的宽度信息,像素的几何信息指像素与笔划的空间关系信息。用“前背景像素距离”来描述像素与笔划的空间关系。它的定义为前景像素与最近的背景像素间的距离或者背景像素与最近的前景像素间的距离的负值,若像素为前景像素,则还需要根据笔划宽度信息计算其与笔划中心的距离信息。如图4所示。笔划宽度信息由笔划邻域内的前景像素的局部平均前背景像素距离计算得到。步骤3根据笔划邻域信息,增强文字笔划。增强的目的在于,使笔划邻域内像素的灰度可区分性增强,从而有利于正确区分前背景像素。笔划增强的方法是对于笔划像素及其邻域像素,对像素梯度方向上若干相邻像素进行灰度拉伸操作,对像素垂直梯度方向上若干相邻像素进行平滑操作,这两种操作的的幅度值受笔划像素的邻域信。同时,这两种操作的的幅度值V受笔划像素的邻域信息约束,由像素的灰度值I、梯度值G和几何信息D三个因素共同决定。操作幅度值V与灰度I和梯度值G成正本文档来自技高网
...

【技术保护点】
一种文档图像二值化方法,包括以下步骤:Step1.图像前背景像素初始标定;Step2.获取笔划邻域信息;Step3.基于笔划邻域信息增强文字笔划;Step4.在笔划增强的图像上进行最终二值化。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱远平王春恒戴汝为
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1