一种基于多光谱成像技术的低质量文档图像二值化方法技术

技术编号:14355099 阅读:47 留言:0更新日期:2017-01-08 22:22
本发明专利技术公开了一种基于多光谱成像技术的低质量文档图像二值化方法,包括读取多光谱图像、光谱分量图像阈值化、目标检测和阈值图像融合处理等四步骤;与其它经典的文档图像二值化方法相比,无论是从输出图像质量,还是算法性能指标,本发明专利技术提出的基于多光谱成像技术的低质量文档图像二值化方法,都要具有明显优势,在较好保留字符笔画细节的同时,能够有效抑制墨迹浸润、页面污渍、纹理背景和光照不均等现象。

【技术实现步骤摘要】

本专利技术属于数字图像处理、模式识别与机器学习
,特别是涉及一种基于多光谱成像(MSI)技术的低质量文档图像二值化方法。
技术介绍
历史文献数字化是指利用现代信息技术对古籍文献进行加工处理,使其转化为电子数据形式,通过光盘、网络等介质保存和传播。历史文献数字化是对古籍或古籍内容的再现和加工,是古籍再生性保护的重要手段。目前,古籍文献图像处理方面的问题已经引起了许多研究者的关注,学术界也提出了多种文档图像处理方法,可大致分为两类:基于灰度图像和基于多光谱成像(MSI)技术的处理方法。基于灰度图像的处理方法使用阈值分割技术提取前景文字,并实现文档背景分离,通过两者融合以恢复原始文档内容。然而,受图像对比度、墨迹浸润、页面污渍或光照不均等因素的影响,使得针对灰度或彩色低质量文档图像的处理具有极大的挑战。基于MSI技术的处理方法主要是以目标对不同波长光线的吸收存在差异为原理,通过对目标在一组特定波长范围中的光强度变化来实现检测、识别等应用需求。随着多光谱成像技术的不断提高,其应用范围也在不断扩大,尤其在军事、遥感、医学、农业以及安检等领域都有着重要的应用。近年来,MSI技术已成功应用于艺术品研究和古籍手稿转录等领域,是非常重要的历史文献分析工具,它允许研究人员在不损毁目标的前提下,尽可能多地获取有价值信息。由于同时使用紫外、红外、可见光等多个光谱,该技术被称为非侵入式研究方法。通过MSI技术可以揭示人为篡改或手写注释区域、鉴别油墨的化学成份、增强文字笔画的可见性、检测历史文献中的退化迹象等,也有助于了解人类的文化传承(这些是使用传统的彩色摄影所无法达到的)。从多光谱文档图像中提取原始文本,即多光谱文档图像二值化,是一个非常重要的步骤,它直接影响后续文档分析与识别(DAR)系统的性能。为了提高历史文档图像中弱笔画与复杂背景间的对比度,研究人员提出了一系列方法,例如主成分分析法(PCA)、独立成分分析法(ICA)、线性判别分析法(LDA)、约束能量最小化法(CEM)、自适应匹配滤波器法(AMF)等。为了实现历史文档图像二值化,研究人员还提出了许多其它方法,如卷积神经网络法(CNN)、高斯混合建模法(GMM)、背景估计法、马尔可夫随机场法(MRF)、比特平面切分法、判别结构分类法、轮廓波变换法(CT)、局部对比度法、拉普拉斯能量法等。
技术实现思路
本专利技术的目的在于提供一种基于多光谱成像(MSI)技术的低质量文档图像二值化方法。本专利技术所采用的技术方案是:一种基于多光谱成像技术的低质量文档图像二值化方法,其特征在于,包括以下步骤:步骤1:读取待处理文档的多光谱图像,并做线性归一化处理,获得到光谱分量图像;步骤2:对光谱分量图像进行阈值化处理;包括局部对比度增强处理、高对比度像素检测处理、笔画宽度估计处理和局部精细二值化处理;步骤3:目标检测;包括对步骤2中处理后的光谱分量图像进行光谱图像特征提取、估计自适应相干图像、基于梯度算子的图像阈值化和消除误判处理;步骤4:阈值图像融合处理;包括二值图像融合和图像后处理。作为优选,步骤1中所述获得到光谱分量图像,包括1个紫外光谱(340nm)、3个可见光谱(500nm、600nm、700nm)和4个红外光谱(800nm、900nm、1000nm、1100nm)。作为优选,步骤1中所述线性归一化处理,计算公式如下:I′(x,y)=I(x,y)-IminImax-Imin,]]>其中,I(x,y)和I′(x,y)分别表示归一化前、后的图像灰度值,Imax和Imin分别表示光谱分量图像的灰度最大值和最小值。作为优选,步骤2的具体实现包括以下子步骤:步骤2.1:对光谱分量图像进行局部对比度增强处理,计算公式如下:C(x,y)=Imax(x,y)-Imin(x,y)Imax(x,y)+Imin(x,y),]]>其中,C(x,y)表示图像的局部对比度,Imax(x,y)和Imin(x,y)分别表示图像在以(x,y)为中心的3×3邻域内的灰度最大值和最小值;步骤2.2:对于步骤2.1的输出图像进行高对比度像素检测处理;对于步骤2.1的输出图像,记t∈[0,L-1]为图像前景与背景的分割阈值,L为灰度级分辨率;如果前景像素占图像比例前景像素平均灰度值背景像素占图像比例背景像素平均灰度值则图像的总体平均灰度值为其中,pi表示归一化直方图;定义前景和背景图像的类间方差为:σB2(t)=ω0(t)[μ0(t)-μT]2+ω1(t)[μ1(t)-μT]2=ω0(t)ω1(t)[μ0(t)-μ1(t)]2,]]>实现高对比度像素检测的准则是,通过确定全局最优阈值t0,使分割后的前景和背景差异最大,即:步骤2.3:基于步骤2.2检测出的高对比度像素进行笔画宽度估计处理;步骤2.3.1:基于步骤2.2检测出的高对比度像素,利用Canny算子对图像进行边缘检测,每个边缘像素点p都具有一个方向梯度值dp;步骤2.3.2:如果像素点p位于笔画边缘,计算p的方向梯度dp,并沿着射线r=p±n×dp(n≥0)梯度查找与之对应的另一个边缘像素点q,计算q的方向梯度dq,dp与dq的方向是大致相反的,即:步骤2.3.3:执行下述判断;如果边缘像素点p找不到对应匹配的q或者其方向梯度dp与dq不满足大致相反的要求,则舍弃该射线r;如果边缘像素点p找到对应匹配的q或者其方向梯度dp与dq满足大致相反的要求,则在[p,q]路径上的每个像素点都指定为笔画宽度属性值,即欧式距离dist=||p-q||,除非该像素点已经被指定了一个更小的笔画宽度属性值;步骤2.3.4:重复步骤2.3.2,直到计算出所有未被舍弃路径上的像素笔画宽度值,并统计其分布直方图H(dist),则笔画宽度估计为:SWE=argmax[H(dist)];步骤2.4:基于步骤2.3估计的字符笔画宽度进行局部精细二值化处理;基于步骤2.3估计的字符笔画宽度确定滑动邻域窗尺寸,从而实现字符前景与页面背景的精细分割,具体公式为:其中,为w×w邻域内检测出的高对比度像素总数,为w×w邻域内由文档字符笔画宽度确定的最少像素下限值,I(x,y)为图像(x,y)处的灰度值,μw(x,y)和σw(x,y)分别表示以(x,y)为中心的w×w邻域内光谱分量图像的灰度平均值和标准偏差,B0(x,y)表示获得的二值图像。作为优选,步骤3的具体实现包括以下子步骤:步骤3.1:基于步骤2中处理后的光谱分量二值图像B0(x,y)进行光谱图像特征提取处理;步骤3.1.1:基于步骤2中处理后的光谱分量二值图像B0(x,y)估计多光谱图像前景像素灰度平均值μFG、背景像素灰度平均值μBG及其差值Δ=μFG-μBG;步骤3.1.2:计算多光谱图像背景像素间的协方差矩阵:Σ=E[(I-μBG)T(I-μBG)],其中,I表示多光谱图像灰度矩阵,T表示矩阵转置,E表示数学期望;步骤3.1.3:估计其广义逆矩阵Σ-1,使同时满足以下条件:步骤3.2:估计自适应相干图像;基于步骤3.1提取的多光谱图像特征,估计自适应相干图像计算公本文档来自技高网
...
一种基于多光谱成像技术的低质量文档图像二值化方法

【技术保护点】
一种基于多光谱成像技术的低质量文档图像二值化方法,其特征在于,包括以下步骤:步骤1:读取待处理文档的多光谱图像,并做线性归一化处理,获得到光谱分量图像;步骤2:对光谱分量图像进行阈值化处理;包括局部对比度增强处理、高对比度像素检测处理、笔画宽度估计处理和局部精细二值化处理;步骤3:目标检测;包括对步骤2中处理后的光谱分量图像进行光谱图像特征提取、估计自适应相干图像、基于梯度算子的图像阈值化和消除误判处理;步骤4:阈值图像融合处理;包括二值图像融合和图像后处理。

【技术特征摘要】
1.一种基于多光谱成像技术的低质量文档图像二值化方法,其特征在于,包括以下步骤:步骤1:读取待处理文档的多光谱图像,并做线性归一化处理,获得到光谱分量图像;步骤2:对光谱分量图像进行阈值化处理;包括局部对比度增强处理、高对比度像素检测处理、笔画宽度估计处理和局部精细二值化处理;步骤3:目标检测;包括对步骤2中处理后的光谱分量图像进行光谱图像特征提取、估计自适应相干图像、基于梯度算子的图像阈值化和消除误判处理;步骤4:阈值图像融合处理;包括二值图像融合和图像后处理。2.根据权利要求1所述的基于多光谱成像技术的低质量文档图像二值化方法,其特征在于:步骤1中所述获得到光谱分量图像,包括1个紫外光谱(340nm)、3个可见光谱(500nm、600nm、700nm)和4个红外光谱(800nm、900nm、1000nm、1100nm)。3.根据权利要求1或2所述的基于多光谱成像技术的低质量文档图像二值化方法,其特征在于,步骤1中所述线性归一化处理,计算公式如下:I′(x,y)=I(x,y)-IminImax-Imin,]]>其中,I(x,y)和I′(x,y)分别表示归一化前、后的图像灰度值,Imax和Imin分别表示光谱分量图像的灰度最大值和最小值。4.根据权利要求1所述的基于多光谱成像技术的低质量文档图像二值化方法,其特征在于,步骤2的具体实现包括以下子步骤:步骤2.1:对光谱分量图像进行局部对比度增强处理,计算公式如下:C(x,y)=Imax(x,y)-Imin(x,y)Imax(x,y)+Imin(x,y),]]>其中,C(x,y)表示图像的局部对比度,Imax(x,y)和Imin(x,y)分别表示图像在以(x,y)为中心的3×3邻域内的灰度最大值和最小值;步骤2.2:对于步骤2.1的输出图像进行高对比度像素检测处理;对于步骤2.1的输出图像,记t∈[0,L-1]为图像前景与背景的分割阈值,L为灰度级分辨率;如果前景像素占图像比例前景像素平均灰度值背景像素占图像比例背景像素平均灰度值则图像的总体平均灰度值为其中,pi表示归一化直方图;定义前景和背景图像的类间方差为:σB2(t)=ω0(t)[μ0(t)-μT]2+ω1(t)[μ1(t)-μT]2=ω0(t)ω1(t)[μ0(t)-μ1(t)]2,]]>实现高对比度像素检测的准则是,通过确定全局最优阈值t0,使分割后的前景和背景差异最大,即:步骤2.3:基于步骤2.2检测出的高对比度像素进行笔画宽度估计处理;步骤2.3.1:基于步骤2.2检测出的高对比度像素,利用Canny算子对图像进行边缘检测,每个边缘像素点p都具有一个方向梯度值dp;步骤2.3.2:如果像素点p位于笔画边缘,计算p的方向梯度dp,并沿着射线r=p±n×dp(n≥0)梯度查找与之对应的另一个边缘像素点q,计算q的方向梯度dq,dp与dq的方向是大致相反的,即:步骤2.3.3:执行下述判断;如果边缘像素点p找不到对应匹配的q或者其方向梯度dp与dq不满足大致相反的要求,则舍弃该射线r;如果边缘像素点p找到对应匹配的q或者其方向梯度dp与dq满足大致相反的要求,则在[p,q]路径上的每个像素点都指定为笔画宽度属性值...

【专利技术属性】
技术研发人员:熊炜李敏徐晶晶赵诗云赵楠刘敏王改华吴俊驰刘小镜
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1