一种基于MSER快速在自然场景中定位倾斜文本的方法技术

技术编号：18459070 阅读：20 留言：0更新日期：2018-07-18 12:48

本发明专利技术一种基于MSER快速在自然场景中定位倾斜文本的方法属于文本定位识别的技术领域；包括对原始图像进行灰度化处理；利用MSER算法对灰度图像上的疑似文本区域进行快速提取，通过椭圆拟合处理疑似文本区域；根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点，进行非文本区域的粗过滤；根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤，判断拟合椭圆是否在面积误差之内；运用层次聚类的思想进行文本融合，通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域；获得文本区域；本发明专利技术降低了文本定位时间，同时也不损失定位精度，实现了高效的倾斜场景文本定位。

A fast method for locating oblique text in natural scenes based on MSER

The method of locating the tilted text in a natural scene based on MSER is a technical field of text location recognition, which includes grayscale processing of the original image; using the MSER algorithm to quickly extract the suspected text area on the gray image, processing the suspected text region by elliptical fitting, and according to the fitting ellipsoid. The ratio of the long and short axis of the circle and the characteristic of fitting the ellipse in the middle of the text area, carry out coarse filtering in the non text region; make a further fine filtration based on the ratio of the actual extraction area and the fitting ellipse region of the MSER irregularities, judge whether the fitting ellipse is within the area error, and uses the idea of hierarchical clustering to make the text fusion. The text area is merged into the word area through the rough classification of character spacing, character chain condition filtering, similarity character chain combination, RGB mean single character and character chain filtering, and the text area is obtained. The invention reduces the text location time and does not lose the location precision at the same time, and realizes the efficient sloping scene text. Location.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于MSER快速在自然场景中定位倾斜文本的方法
本专利技术一种基于MSER快速在自然场景中定位倾斜文本的方法，属于文本定位识别的

技术介绍
MSER算法(maximallystableextremalregions，最大稳定极值区域)是一种仿射特征区域提取算法。其采用的拟合椭圆文本区域能够较为快速准确的提取图像中的文本信息，然而在处理倾斜文本时的效果不佳，准确度也不高，而且需要大量样本训练导致定位速度慢。
技术实现思路
针对上述问题，本专利技术的目的在于提供一种基于MSER快速在自然场景中定位倾斜文本的方法。本专利技术的目的是这样实现的：一种基于MSER快速在自然场景中定位倾斜文本的方法，包括以下步骤：步骤a、对原始图像进行灰度化处理；步骤b、利用MSER算法对灰度图像上的疑似文本区域进行快速提取，并通过椭圆拟合处理疑似文本区域；步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点，进行非文本区域的粗过滤；当不符合拟合椭圆长短轴之比时，进行删除；当符合拟合椭圆长短轴之比时，进行判断拟合椭圆是否位于图像边缘；若是，进行删除；若否，进行步骤d；步骤d、根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤，判断拟合椭圆是否在面积误差之内；若否，进行删除；若是，则判断拟合椭圆文本区域是否存在重复嵌套的现象；若否，进行删除；若是，进行步骤e；步骤e、运用层次聚类的思想进行文本融合，通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域；步骤f、获得文本区域。所述基于MSE...

【技术保护点】
1.一种基于MSER快速在自然场景中定位倾斜文本的方法，其特征在于，包括以下步骤：步骤a、对原始图像进行灰度化处理；步骤b、利用MSER算法对灰度图像上的疑似文本区域进行快速提取，并通过椭圆拟合处理疑似文本区域；步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点，进行非文本区域的粗过滤；当不符合拟合椭圆长短轴之比时，进行删除；当符合拟合椭圆长短轴之比时，进行判断拟合椭圆是否位于图像边缘；若是，进行删除；若否，进行步骤d；步骤d、根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤，判断拟合椭圆是否在面积误差之内；若否，进行删除；若是，则判断拟合椭圆文本区域是否存在重复嵌套的现象；若否，进行删除；若是，进行步骤e；步骤e、运用层次聚类的思想进行文本融合，通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域；步骤f、获得文本区域。

【技术特征摘要】
1.一种基于MSER快速在自然场景中定位倾斜文本的方法，其特征在于，包括以下步骤：步骤a、对原始图像进行灰度化处理；步骤b、利用MSER算法对灰度图像上的疑似文本区域进行快速提取，并通过椭圆拟合处理疑似文本区域；步骤c、根据拟合椭圆的长短轴比值和拟合椭圆在文本区域居中的特点，进行非文本区域的粗过滤；当不符合拟合椭圆长短轴之比时，进行删除；当符合拟合椭圆长短轴之比时，进行判断拟合椭圆是否位于图像边缘；若是，进行删除；若否，进行步骤d；步骤d、根据MSER不规则的实际提取区域和拟合椭圆区域的比值进行进一步的细过滤，判断拟合椭圆是否在面积误差之内；若否，进行删除；若是，则判断拟合椭圆文本区域是否存在重复嵌套的现象；若否，进行删除；若是，进行步骤e；步骤e、运用层次聚类的思想进行文本融合，通过字符间距粗分类、字符链条件过滤、相似度字符链合并、RGB均值单字符与字符链筛选将分散的文本区域合并成单词区域；步骤f、获得文本区域。2.根据权利要求1所述基于MSER快速在自然场景中定位倾斜文本的方法，其特征在于，步骤b中通过椭圆拟合处理疑似文本区域，方法是利用结构仿射不变的特性将不规则的MSER区域拟合成规则的椭圆度量区域，每一个代替不规则MSER区域的拟合椭圆都会有各自的编号记录在matlab工作区的MSERRegions中，其中包括拟合椭圆长轴与短轴的长度、中心点坐标、拟合椭圆的方向以及被拟合椭圆包围的MSER区域中所有像素点的坐标信息。3.根据权利要求1所述基于MSER快速在自然场景中定位倾斜文本的方法，其特征在于，步骤c中进行非文本区域的粗过滤的方法，包括以下步骤：步骤c1、通过对大量文本区域与非文本区域拟合椭圆的特征进行观察和比较，得出英文文本区域拟合椭圆的长轴与短轴的比值通常在一定的范围之内，计算公式为：α＝Axesi(1)/Axesi(2)Axesi(1)表示第i个MSER区域拟合椭圆的长轴长度，Axesi(2)表示第i个MSER区域拟合椭圆的短轴长度，α为拟合椭圆的长轴与短轴的比值，当α的阈值设为7时过滤效果比较理想，当疑似文本区域的α值小于7时，这个区域就被视为非文本区域，从MSERRegions中删除；步骤c2、文本区域位于图像的内部，很少位于图像的边缘，拟合椭圆内所包含的MSER像素信息中含有图像边界像素点时，就能够判断这个区域为非文本区域，从而在MSERRegions中删除。4.根据权利要求1或3所述基于MSER快速在自然场景中定位倾斜文本的方法，其特征在于，步骤d中细过滤的方法，包括以下步骤：步骤d1、利用文本区域的拟合椭圆面积与MSER像素面积的比值会比非文本区域更高的特点，设置比值阈值滤除非文本区域，公式如下：β＝Areaellipsei/AreapixellistiAreaellipsei与Areapixellisti分别表示第i个MSER区域中对应拟合椭圆的面积与MSER区域的实际面积，将β的阈值设置为2.5比较理想，当疑似文本区域的β小于2.5时，认为此区域为非文本区域；步骤d2、对步骤c中可能存在错滤的字符，进行补偿判断，再设置一个阈值，若被删除的区域中α值大于4且小于7，则不会被删除，继续保留在MSER...

【专利技术属性】
技术研发人员：张开玉，冯忠明，万康怡，王强，陈荣琪，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：黑龙江,23

全部详细技术资料下载我是这个专利的主人