基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法技术

技术编号:8594260 阅读:305 留言:0更新日期:2013-04-18 07:33
本发明专利技术公开了一种基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法,包括:(1)文字提取;(2)文字去除。该方法从彩色原图中提取出垂直、水平、对角三个方向的边缘图像,然后分别对这三幅边缘图像进行形态学处理得到三幅不同的连通域图,最后,将这三幅连通域图进行逻辑“与”运算,去除噪声,得到最终的文字区域。这种方法有以下优点:⑴算法简单,计算速度快。⑵算法有效,文字提取率高。⑶鲁棒性强。能提取出彩色图像内水平、垂直或倾斜的颜色一致或渐变的文字。综合运用文字提取算法及图像修复技术,很好地完成了图像修复的目标。

【技术实现步骤摘要】

本专利技术涉及一种基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法,属于图像分割及图像修复领域。
技术介绍
随着计算机科学、多媒体技术的飞速发展,以彩色图像为主的多媒体信息迅速成为重要的通用信息媒体。在彩色图像中,文字信息(如新闻标题、旁白等等)包含了丰富的高层语义信息,自动提取出这些文字,通过对它们的识别和分析,对于图像高层语义的索引和检索是非常有帮助的。此外,还可将提取出的文字从原图中去除,同时修复被文字所遮挡的背景区域,然后添加上多语种的文字,这对于不同语种间的图像交流和图像的再次使用也是很有意义的。彩色图像内文字的自动提取方法主要有四类纹理分析法、区域分析法、学习分析法和边缘分析法。(I)纹理分析法此法是利用纹理特征去判别一个像素点或像素块是否属于文字。因字符区域通常是全图纹理较丰富的区域,实现对纹理的寻找即可以找到相关的字符区域。纹理分析法有一定的通用性,但对于文字的字体和风格比较敏感,存在着定位不准和算法复杂度高的缺点,而且计算非常耗时,效率比较低。(2)区域分析法把字符作为满足特定启发式规则的单色区域来检测。假设每个字符的像素都有相似的颜色,那么用图像分割的方法或颜色聚类的方法或连通区域分析技术即可把字符从背景中分割出来,然后再使用一些简单的启发式规则,如区域的尺寸和长宽比或者基线等来对分割到的区域进行进一步筛选即可得到字符。然而,图像中文字并不总是单色的,故这种方法对于复杂背景图像来说,其鲁棒性较差,基于区域的方法只适用于二值图像,不适用于彩色图像。(3)学习分析法使用SVM机制来自动定位提取视频字幕的方案,即首先对每幅视频图像按照NXN大小切分成若干图像子块,然后把每个子块分别人工训练标注为字幕和非字幕两类,并通过提取图像的子块特征向量来训练SVM分类器。对于测试图像,则首先将其切分成子块,然后应用训练好的SVM分类器对其进行判断,最后通过后期处理进行去噪和合成,即可得到字幕提取结果。基于学习的方法作为一种智能识别方法,虽在相当程度上解决了许多传统方法遇到的问题,但由于其需要事先通过选取样本来对分类学习机进行训练,所以,训练样本集与测试样本集的相似程度就决定了该方法的最终识别效果。(4)边缘分析法因文字笔画丰富,文字区域的边缘非常丰富,所以该方法首先检测出图像的垂直边缘,然后通过平滑滤波等方法来将垂直边缘连接成为文字块,再使用一些启发式规则来对文字块进行进一步筛选。此法可以达到快速检测文字的效果,但该方法不能适应图像背景的复杂变化。传统的边缘分析法通过寻找垂直边缘来检测文字会造成一定的误检,但边缘分析法恰恰考虑到了文字及文字区域的相关特征,有效的避免了纹理分析法、区域分析法的算法复杂度高、耗时,且定位不准的缺陷。
技术实现思路
本专利技术的目的在于提供基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法,在传统的文字提取方法一边缘检测分析法的基础上提出了基于垂直、水平、对角三个方向的边缘检测方法,并以此为基础,运用形态学及逻辑“与”运算,建立了一种新的彩色图像内文字的自动提取方法(CEMA);在实现了文字提取后,运用纹理块匹配修复技术修复原有彩色图像内被文字所遮挡的背景,即实现了文字的去除。为达到上述目的,本专利技术所采用的技术方案是基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法,包括以下步骤 (1).文字提取; (2).文字去除。所述的步骤(I)包括a.垂直、水平、对角方向的彩色边缘检测;b.灰度化、二值化;c.形态学处理形成连通域;d.逻辑与运算定位文字区域;e.文字区域的提取。所述的步骤(2)包括f.文字区域的后处理;g.基于纹理块匹配的图像修复。由于上述技术方案的采用,本专利技术与现有技术相比,具有以下优点该方法从彩色原图中提取出垂直、水平、对角三个方向的边缘图像,然后分别对这三幅边缘图像进行形态学处理得到三幅不同的连通域图,最后,将这三幅连通域图进行逻辑“与”运算,去除噪声,得到最终的文字区域。这种方法有以下优点 ⑴算法简单,计算速度快。(2)算法有效,文字提取率高。(3)鲁棒性强。能提取出彩色图像内水平、垂直或倾斜的颜色一致或渐变的文字。本专利技术综合运用文字提取算法及图像修复技术,能高速度高准确性高性能地从彩色图像中提取出文字并将背景修复完好,这是目前所有其他文献都没做到的。采用基于纹理块匹配的修复法,很好地完成了图像修复的目标。附图说明图1为本专利技术流程 图2为垂直方向检测 图3为水平方向检测 图4为对角方向检测 图5为检测算子扫描像素的顺序图。具体实施例方式如图1所示,本专利技术包括以下步骤 (I):文字提取图像中的文字与背景之间存在着明显的边缘轮廓,且字符排列有序,字体基本相同。基于以上特点,本专利技术提出了基于彩色边缘检测、形态学和逻辑与运算的文字提取算法一CEMA (Color-Edge detection, Morphology, logic operator “And,,)。a.垂直、水平、对角方向的彩色边缘检测 由于彩色图像中的文字与背景有较强的对比度,表现为在文字与背景的交界处,存在十分明显的高频区域,因此可以用提取边缘的方法来估计出文字可能存在的区域。在分析了传统的文字提取方法的基础上,本专利技术提出用三个简单的不同方向的彩色边缘检测算子来代替原来单一的垂直方向的检测,如下图2至3所示, 这三个检测算子分别作用于彩色图像的红、绿、蓝三个分量上来提取边缘,以像素点(i, j)为例,定义垂直方向彩色边缘检测(其它方向的检测算子雷同)如下本文档来自技高网
...

【技术保护点】
一种基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法,其特征在于,包括以下步骤:(1).文字提取;(2).文字去除。

【技术特征摘要】
1.一种基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法,其特征在于,包括以下步骤 (1).文字提取; (2).文字去除。2.根据权利要求1所述的基于CEMA算法和纹理块匹配修复技术的自动提取与去除彩色图像内文字的方法,其特征在于,所述的步骤(I)包括a.垂直、水平、对...

【专利技术属性】
技术研发人员:季丽琴孙艳
申请(专利权)人:健雄职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1