一种中文文字图片长干扰线去除方法技术

技术编号:24331807 阅读:67 留言:0更新日期:2020-05-29 19:58
本发明专利技术涉及一种中文文字图片长干扰线去除方法,属于信息处理技术领域。首先获取带有长干扰线的文字图片,并对图像进行二值化处理,去除原始图像中的部分噪音,从而得到主要的文字识别部分;设定初始扫描方向,对图片进行扫描获取待测点;根据不同种类的像素连接情况,计算各个线条的连接权值和干扰线条的阈值,判定超过此阈值的线条为干扰线;通过干扰线上像素点的邻域特性,判定归属后对其进行保留或去除;去除图片中的单行或者单列像素;最后,对图片进行重复去噪,直至其阈值低于初次计算的权值均值时,保留并输出最终结果图片。本发明专利技术通过贪婪算法计算线条均值,解决现存问题中计算速率低,干扰线与文字耦合粘连部分去除效果不理想的问题。

A method of removing long interference lines from Chinese characters and pictures

【技术实现步骤摘要】
一种中文文字图片长干扰线去除方法
本专利技术涉及一种中文文字图片长干扰线去除方法,属于信息处理

技术介绍
如今正处于计算机信息化飞速发展的时代,信息的电子化处理已然成为了一种不可逆转的趋势。在未来,如何将大量的已产生或将产生的印刷或手写的海量文档高效并准确的储存于计算机之中,减少繁琐的文字录入,是一个尚需解决的问题。目前,单纯背景下的印刷体文字的文档图像,其OCR的识别率已经能够达到99%以上,并且在各个领域中得到了广泛的应用。然而,现实中所需识别的文字图片却是纷繁复杂的,包含了大量的干扰信息(如:复杂的背景噪声、干扰线等),从而降低了识别的准确率。关于干扰线的产生,往往是由于人们在原始文本上对重要内容进行的标记,或者是为了逃避信息安全机构对非法信息传播的过滤,对于带有干扰的信息人们可以根据已有的知识进行理解,从而获取到传播的信息,而计算机却不尽然。因此,如何对文字图像中的干扰线进行有效的去除,成为OCR识别问题中一个重要的步骤。关于文本图像去除干扰线的研究工作大致可归为三类,第一类是通过干扰线与原始文字图片的颜色差异性,根据本文档来自技高网...

【技术保护点】
1.一种中文文字图片长干扰线去除方法,其特征在于:/nStep1:获取带有与文本颜色相同干扰线的文字图像;/nStep2:对文字图像进行二值化的处理,并得到二值化图像;/nStep3:确定初始扫描方向,获取与文字颜色一致的像素点;/nStep4:依次扫描待测点,计算通过线段权值;/nStep5:计算当前图片所有线段权值的均值,并储存初始图片所有连接线段的权值均值;/nStep6:根据求取的干扰线段阈值,逐一判定当前线段是否属于干扰线段;/nStep7:根据干扰线段上每个像素点的邻域特性,判定其与文字粘连情况后,对图片中的干扰像素点进行去除;/nStep8:扫描已经处理好的图片,对图像之中的单行...

【技术特征摘要】
1.一种中文文字图片长干扰线去除方法,其特征在于:
Step1:获取带有与文本颜色相同干扰线的文字图像;
Step2:对文字图像进行二值化的处理,并得到二值化图像;
Step3:确定初始扫描方向,获取与文字颜色一致的像素点;
Step4:依次扫描待测点,计算通过线段权值;
Step5:计算当前图片所有线段权值的均值,并储存初始图片所有连接线段的权值均值;
Step6:根据求取的干扰线段阈值,逐一判定当前线段是否属于干扰线段;
Step7:根据干扰线段上每个像素点的邻域特性,判定其与文字粘连情况后,对图片中的干扰像素点进行去除;
Step8:扫描已经处理好的图片,对图像之中的单行或者单列的像素点进行去除;
Step9:循环处理图片中的干扰线段,直至当前干扰线段的阈值小于Step5中所储存的初始图片所有连接线段权值的均值,则循环终止;
Step10:对最终处理好的图片进行储存并输出。


2.根据权利要求1所述的中文文字图片长干扰线去除方法,其特征在于:所述步骤Step1中,所获取的带有干扰线的文字图片,其干扰线特征为:与文字图片颜色相同,且干扰线的线性可为规则或不规则的连续线段,可与文字部分进行部分粘连,其长度应大于中文字符的长度。


3.根据权利要求1所述的中文文字图片长干扰线去除方法,其特征在于:所述步骤Step2中,对文字图像进行二值化处理,其处理过程为将一幅大小为m×n的文档图像等分成大小相等的块,假设等分成m1×n1个块,即列方向等分成m1份,行方向等分成n1份,则每块中像素的数目为(m×n)/(m1×n1),m1和n1的取值范围应为5~10之间的整数,每个小块中的局部阈值使用大津法获得,然后使用线性插值法从局部阈值获得每个位置的阈值T(i,j),图像二值化可以描述为:





4.根据权利要求1所述的中文文字图片长干扰线去除方法,其特征在于:所述步骤Step3中,确定扫描的方向为水平或者垂直,获取文字图像中文字的颜色,并获取所有与其颜色相同的像素点位置,并存于数组V:{v1,v2…vx}之中,其中x为所有待测像素点的数目,vx为该像素点的在图片之中的位置坐标。


5.根据权利要求1所述的中文文字图片长干扰线去除方法,其特征在于:所述步骤Step4中,获取待测点的坐标值vx(y1,y2),扫描其前方的像素点的颜色值,并加上相应的权值,将所获取的权值放入权值数组P:{p1,p2…px},其待测点前方像素情况与相应权值对应情况如下:
5a:设置初始权值px为0;
5b:当vx(y1+1,y2)的颜色与vx(y1,y2)相同时,权值px加3;

【专利技术属性】
技术研发人员:龙华段荧邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1