一种基于MSER快速在自然场景中定位倾斜文本的方法技术

技术编号:18459070 阅读:20 留言:0更新日期:2018-07-18 12:48
本发明专利技术一种基于MSER快速在自然场景中定位倾斜文本的方法属于文本定位识别的技术领域;包括对原始图像进行灰度化处理;利用MSER算法对灰度图像上的疑似文本区域进行快速提取,通过椭圆拟合处理疑似文本区域;根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点,进行非文本区域的粗过滤;根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤,判断拟合椭圆是否在面积误差之内;运用层次聚类的思想进行文本融合,通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域;获得文本区域;本发明专利技术降低了文本定位时间,同时也不损失定位精度,实现了高效的倾斜场景文本定位。

A fast method for locating oblique text in natural scenes based on MSER

The method of locating the tilted text in a natural scene based on MSER is a technical field of text location recognition, which includes grayscale processing of the original image; using the MSER algorithm to quickly extract the suspected text area on the gray image, processing the suspected text region by elliptical fitting, and according to the fitting ellipsoid. The ratio of the long and short axis of the circle and the characteristic of fitting the ellipse in the middle of the text area, carry out coarse filtering in the non text region; make a further fine filtration based on the ratio of the actual extraction area and the fitting ellipse region of the MSER irregularities, judge whether the fitting ellipse is within the area error, and uses the idea of hierarchical clustering to make the text fusion. The text area is merged into the word area through the rough classification of character spacing, character chain condition filtering, similarity character chain combination, RGB mean single character and character chain filtering, and the text area is obtained. The invention reduces the text location time and does not lose the location precision at the same time, and realizes the efficient sloping scene text. Location.

【技术实现步骤摘要】
一种基于MSER快速在自然场景中定位倾斜文本的方法
本专利技术一种基于MSER快速在自然场景中定位倾斜文本的方法,属于文本定位识别的

技术介绍
MSER算法(maximallystableextremalregions,最大稳定极值区域)是一种仿射特征区域提取算法。其采用的拟合椭圆文本区域能够较为快速准确的提取图像中的文本信息,然而在处理倾斜文本时的效果不佳,准确度也不高,而且需要大量样本训练导致定位速度慢。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种基于MSER快速在自然场景中定位倾斜文本的方法。本专利技术的目的是这样实现的:一种基于MSER快速在自然场景中定位倾斜文本的方法,包括以下步骤:步骤a、对原始图像进行灰度化处理;步骤b、利用MSER算法对灰度图像上的疑似文本区域进行快速提取,并通过椭圆拟合处理疑似文本区域;步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点,进行非文本区域的粗过滤;当不符合拟合椭圆长短轴之比时,进行删除;当符合拟合椭圆长短轴之比时,进行判断拟合椭圆是否位于图像边缘;若是,进行删除;若否,进行步骤d;步骤d、根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤,判断拟合椭圆是否在面积误差之内;若否,进行删除;若是,则判断拟合椭圆文本区域是否存在重复嵌套的现象;若否,进行删除;若是,进行步骤e;步骤e、运用层次聚类的思想进行文本融合,通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域;步骤f、获得文本区域。所述基于MSER快速在自然场景中定位倾斜文本的方法,步骤b中通过椭圆拟合处理疑似文本区域,方法是利用结构仿射不变的特性将不规则的MSER区域拟合成规则的椭圆度量区域,每一个代替不规则MSER区域的拟合椭圆都会有各自的编号记录在matlab工作区的MSERRegions中,其中包括拟合椭圆长轴与短轴的长度、中心点坐标、拟合椭圆的方向以及被拟合椭圆包围的MSER区域中所有像素点的坐标信息。所述基于MSER快速在自然场景中定位倾斜文本的方法,步骤c中进行非文本区域的粗过滤的方法,包括以下步骤:步骤c1、通过对大量文本区域与非文本区域拟合椭圆的特征进行观察和比较,得出英文文本区域拟合椭圆的长轴与短轴的比值通常在一定的范围之内,计算公式为:α=Axesi(1)/Axesi(2)Axesi(1)表示第i个MSER区域拟合椭圆的长轴长度,Axesi(2)表示第i个MSER区域拟合椭圆的短轴长度,α为拟合椭圆的长轴与短轴的比值,当α的阈值设为7时过滤效果比较理想,当疑似文本区域的α值小于7时,这个区域就被视为非文本区域,从MSERRegions中删除;步骤c2、文本区域位于图像的内部,很少位于图像的边缘,拟合椭圆内所包含的MSER像素信息中含有图像边界像素点时,就能够判断这个区域为非文本区域,从而在MSERRegions中删除。所述基于MSER快速在自然场景中定位倾斜文本的方法,步骤d中细过滤的方法,包括以下步骤:步骤d1、利用文本区域的拟合椭圆面积与MSER像素面积的比值会比非文本区域更高的特点,设置比值阈值滤除非文本区域,公式如下:β=Areaellipsei/AreapixellistiAreaellipsei与Areapixellisti分别表示第i个MSER区域中对应拟合椭圆的面积与MSER区域的实际面积,将β的阈值设置为2.5比较理想,当疑似文本区域的β小于2.5时,认为此区域为非文本区域;步骤d2、对步骤c中可能存在错滤的字符,进行补偿判断,再设置一个阈值,若被删除的区域中α值大于4且小于7,则不会被删除,继续保留在MSERRrgions中;步骤d3、针对图像会存在部分许多与文本区域拟合椭圆特征相似、重合嵌套的非文本区域从而影响处理速度的情况进行处理,判断拟合椭圆内像素信息大致相同的两个文本区域,选择较大的拟合椭圆代表该区域,设置一个重叠误差,将重叠误差记为OE,公式如下:Areaellipsei与Areaellipsek分别代表第i个与第k个拟合椭圆的面积。所述基于MSER快速在自然场景中定位倾斜文本的方法,步骤e中运用层次聚类的思想进行文本融合的方法,包括以下步骤:步骤e1、计算每个文本区域之间的欧式距离,即每个拟合椭圆中心点之间的欧式距离,通过一个字符间距的阈值来进行初步的分类,计算公式如下:dis表示每个文本到其他文本的欧式距离中最小的2个值的均值,avgdis为计算得出的判断阈值;步骤e2、判断并筛选符合要求的字符链,计算字符个数大于3的字符组中第一个字符与其他字符连线的角度;表示第i个字符组中第1个字符和第n个字符的连线角度,n的大小由这个字符组中的字符个数决定,根据公式(M),在同一个字符链中只要有一个角度之差的绝对值大于π/8,这个字符链就会被滤除;步骤e3、对初步分类的字符链进行进一步的聚合,如果两条字符链至少共享一个相同字符的话,通过计算这2条字符链之间的相似程度来判断这两条字符链是否需要合并,C1和C2表示的是两条字符链,表示C1和C2之间的夹角,和表示C1和C2两条字符链的字符个数,so(C1,C2)为C1和C2的方向相似度,sp(C1,C2)为C1和C2的字符数目的相似度,C1和C2之间的总的相似度的定义为下:s(C1,C2)=ω·so(C1,C2)+(1-ω)·sp(C1,C2)ω为一个加权参数,它的取值范围为[0,1],ω被设为0.7,在总的相似度中,方向相似度的贡献更高,字符个数相似度的贡献较低;设置一个阈值,当s(C1,C2)大于这个阈值时这两条字符链合并;当阈值设为0.8时效果较为理想,不停迭代上述过程,直至没有其他任何的字符链可以合并到一起;步骤e4、在文本区域合并的第一步中通过字符间距阈值分类后除了字符组之外还存在着未被分组的单个文本区域和在第三步中未被合并的单个字符链,单个的文本区域可能包含着1个字母或是数字,而单个的字符链可能是与整体文本距离较远的文本区域,因此不能直接删除;在一张图片中,文本区域的字符颜色通常都较为相近,因此这些文本区域的RGB均值也较为相近;通过计算比较这些区域的RGB均值来判断这些区域是否需要删除;RGB均值的定义为:在每个MSER区域所对应的彩色图像中包含着n个像素点,avgRGB即为每个像素点R、G、B三个数值的平均值,RGB均值即为这个区域中所有像素点avgRGB的平均值;计算每个未被分组的单个文本区域与未被合并的单个字符链区域的avgcolori,i表示未被分组的单个文本区域与未被合并的单个字符链区域的总个数,与所有已被确定为文本的字符链区域的avgcolorall进行比较,根据上述公式,将不符合条件的区域删除;计算并画出每个字符链区域的最大外接矩形,就能完成对文本区域的选取;就此完成了非文本区域的过滤与文本区域的合并,最终得到需要的单词区域。有益效果:本专利技术提供了一种基于MSER快速在自然场景中定位倾斜文本的方法,针对自然场景下的倾斜文本定位算法运行速度慢且倾斜定位难的原因,采用MSER椭圆拟合算法进行快速提取过滤文本区域,再结合运用层次聚类的思想,先将文本区域中的字符通过距离阈值分类并连本文档来自技高网...

【技术保护点】
1.一种基于MSER快速在自然场景中定位倾斜文本的方法,其特征在于,包括以下步骤:步骤a、对原始图像进行灰度化处理;步骤b、利用MSER算法对灰度图像上的疑似文本区域进行快速提取,并通过椭圆拟合处理疑似文本区域;步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点,进行非文本区域的粗过滤;当不符合拟合椭圆长短轴之比时,进行删除;当符合拟合椭圆长短轴之比时,进行判断拟合椭圆是否位于图像边缘;若是,进行删除;若否,进行步骤d;步骤d、根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤,判断拟合椭圆是否在面积误差之内;若否,进行删除;若是,则判断拟合椭圆文本区域是否存在重复嵌套的现象;若否,进行删除;若是,进行步骤e;步骤e、运用层次聚类的思想进行文本融合,通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域;步骤f、获得文本区域。

【技术特征摘要】
1.一种基于MSER快速在自然场景中定位倾斜文本的方法,其特征在于,包括以下步骤:步骤a、对原始图像进行灰度化处理;步骤b、利用MSER算法对灰度图像上的疑似文本区域进行快速提取,并通过椭圆拟合处理疑似文本区域;步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点,进行非文本区域的粗过滤;当不符合拟合椭圆长短轴之比时,进行删除;当符合拟合椭圆长短轴之比时,进行判断拟合椭圆是否位于图像边缘;若是,进行删除;若否,进行步骤d;步骤d、根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤,判断拟合椭圆是否在面积误差之内;若否,进行删除;若是,则判断拟合椭圆文本区域是否存在重复嵌套的现象;若否,进行删除;若是,进行步骤e;步骤e、运用层次聚类的思想进行文本融合,通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域;步骤f、获得文本区域。2.根据权利要求1所述基于MSER快速在自然场景中定位倾斜文本的方法,其特征在于,步骤b中通过椭圆拟合处理疑似文本区域,方法是利用结构仿射不变的特性将不规则的MSER区域拟合成规则的椭圆度量区域,每一个代替不规则MSER区域的拟合椭圆都会有各自的编号记录在matlab工作区的MSERRegions中,其中包括拟合椭圆长轴与短轴的长度、中心点坐标、拟合椭圆的方向以及被拟合椭圆包围的MSER区域中所有像素点的坐标信息。3.根据权利要求1所述基于MSER快速在自然场景中定位倾斜文本的方法,其特征在于,步骤c中进行非文本区域的粗过滤的方法,包括以下步骤:步骤c1、通过对大量文本区域与非文本区域拟合椭圆的特征进行观察和比较,得出英文文本区域拟合椭圆的长轴与短轴的比值通常在一定的范围之内,计算公式为:α=Axesi(1)/Axesi(2)Axesi(1)表示第i个MSER区域拟合椭圆的长轴长度,Axesi(2)表示第i个MSER区域拟合椭圆的短轴长度,α为拟合椭圆的长轴与短轴的比值,当α的阈值设为7时过滤效果比较理想,当疑似文本区域的α值小于7时,这个区域就被视为非文本区域,从MSERRegions中删除;步骤c2、文本区域位于图像的内部,很少位于图像的边缘,拟合椭圆内所包含的MSER像素信息中含有图像边界像素点时,就能够判断这个区域为非文本区域,从而在MSERRegions中删除。4.根据权利要求1或3所述基于MSER快速在自然场景中定位倾斜文本的方法,其特征在于,步骤d中细过滤的方法,包括以下步骤:步骤d1、利用文本区域的拟合椭圆面积与MSER像素面积的比值会比非文本区域更高的特点,设置比值阈值滤除非文本区域,公式如下:β=Areaellipsei/AreapixellistiAreaellipsei与Areapixellisti分别表示第i个MSER区域中对应拟合椭圆的面积与MSER区域的实际面积,将β的阈值设置为2.5比较理想,当疑似文本区域的β小于2.5时,认为此区域为非文本区域;步骤d2、对步骤c中可能存在错滤的字符,进行补偿判断,再设置一个阈值,若被删除的区域中α值大于4且小于7,则不会被删除,继续保留在MSER...

【专利技术属性】
技术研发人员:张开玉冯忠明万康怡王强陈荣琪
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1