一种基于最大稳定极值区域与笔画宽度的文本定位方法技术

技术编号:15999655 阅读:46 留言:0更新日期:2017-08-15 14:19
该发明专利技术公开了一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法,属于计算机视觉技术领域,具体涉及复杂场景下的文本定位研究。本发明专利技术基于改进的直方图均衡算法对原始图像进行预处理,有效的提高了图像的对比度,然后利用MSER算法有效的将铁路场景下的微弱目标区域检测出来,接着通过字符的笔画宽度特征有效的去除了非文本区域,降低误检率,从而解决了铁路场景下的文本检测困难、准确定位文本难以实现的问题。本发明专利技术的优点是利用文本行的空间结构特点,采取了区块滑窗搜索策略,有效的降低了计算复杂度。本发明专利技术可以应用于复杂的铁路字符定位场景。

A text location method based on maximum stable extremum region and stroke width

The invention discloses a maximally stable extremal region and stroke width based on the combination method of railway scene text localization, which belongs to the technical field of computer vision, in particular on text location in complex background. The invention is to preprocess the original image histogram equalization algorithm based on improved, effectively improve the contrast of the image, and then effectively detect railway scene weak target area by using MSER algorithm, then the character stroke width effectively in addition to non text region, reduce the error rate, so as to solve the the text is difficult to detect, railway scenario is difficult to achieve accurate positioning of text problems. The invention has the advantage of utilizing the spatial structure characteristic of the text line and adopting the block sliding window search strategy to effectively reduce the computational complexity. The invention can be applied to complicated railway character positioning scenes.

【技术实现步骤摘要】
一种基于最大稳定极值区域与笔画宽度的文本定位方法
本专利技术属于计算机视觉
,具体涉及复杂场景下的文本定位研究。
技术介绍
文本定位是指将场景图像中的文本精确地定位出来,它是获取场景图像中文本信息的基础和前提,也是光学字符识别(OpticalCharacterRecognition)的一个关键组成部分;因此,文本定位算法作为当今计算机视觉领域研究热点之一,一直受到研究者重视,并在纸质文档的字符分割识别,车牌号码的定位识别等方面具有广泛的应用。现今对于简单场景下的文本定位算法都有很出色的表现,尤其是背景单一、干净的人工文档文本定位应用,基本都有95%以上的定位准确率;然而,针对复杂场景下的文本定位算法仍存在定位准确率低的问题,尤其是铁路场景,其具有背景复杂、目标微弱和对比度低等特点,目前还没有一种针对此特定应用场景下的有效文本定位算法。现有的文本检测方法主要有:基于边缘的方法、基于纹理的方法和基于区域的方法。在文献“Textlocalizationinreal-worldimagesusingefficientlyprunedexhaustivesearch.2011:687-691”中,利用最大稳定极值区域(MSER:maximumstableextremalregions)的稳定性和仿射不变性,以检测出的MSER作为文本候选区域然后进行文本定位,该方法在简单应用场景中检测率高,但在复杂场景中,虚警特别多;在文献“Detectingtextinnaturalsceneswithstrokewidthtransform.2010,119(5):2963-2970”中,提出了笔画宽度变换的概念,首先在Canny边缘图像上寻找边缘像素对,两个像素间的欧式距离就是两者及之间像素的笔画宽度,然后根据笔画宽度的变化来检测文本,此方法能有效的利用字符特有的笔画特征实现准确的检测,但由于依赖于边缘检测的效果,在复杂场景下笔画宽度难以准确获得。综上,单独使用上述方法是无法适用于复杂场景下的文本定位,由此提出一种综合二者优点的复杂场景文本定位算法。
技术实现思路
本专利技术的目的是针对现有的文本定位方法只能应用于简单场景的局限,研究一种应用场景为铁路场景的文本定位算法,针对铁路号牌文本检测场景具有背景复杂、目标微弱和对比度低等特点,提出了一种基于最大稳定极值区域与笔画宽度相结合的文本定位算法。本专利技术的技术方案为:采用局部直方图均衡算法提高图像的对比度,通过检测预处理图像中的最大稳定极值区域获得文本候选区域,进一步采取文本笔画宽度等特征去除非文本区域,最后通过文本行生成策略得到文本定位结果。该方法有效解决了在复杂的铁路场景下无法有效检测到文本和受环境干扰严重的问题,从而实现对铁路场景中的文本进行有效检测和准确定位。本专利技术提出了一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法,具体包括如下步骤:S1.采集待检图像,将数字摄像采集装置固定于车辆前视挡风玻璃上,视角平行于地面,持续采集待检图像;S2.图像预处理:将待检图像转换成灰度图,采用局部直方图均衡化算法对灰度图像进行对比度增强;S3.获取全图的最大极值稳定区域:通过对步骤S2获得的图像用0到255的变化阈值分别进行二值化,在阈值变化过程中,有一些区域会在一定范围的阈值变化中保持稳定,这些稳定的区域就是最大稳定极值区域;经过上述操作只能检测出暗文本区域,对原图进行反转后再检测一次MSER,检测出亮文本区域;S4.初步形成字符候选区域:步骤4.1:对步骤S3得到的最大稳定极值区域标记一个外接的检测框,根据检测框的大小和连通区域的占有率去除明显不是字符的区域,连通区域的占有率表示连通区域面积与该连通区域外接检测框面积的比值;步骤4.2:去重复检测框:若两个检测框的左上角坐标接近,检测框尺寸也接近,则认为这两个区域重复,任意去除一个;步骤4.3:去除具有包含关系的检测框:若两个区域具有包含关系,则将大面积检测框保留,到此留存的检测框内的区域为字符候选区域;S5.获取笔画宽度图像:提取出各字符候选区域的骨架图像,对骨架图像进行距离变换得到笔画宽度图像;S6.笔画特征过滤:利用笔画宽度和骨架端点数目来滤除非文本区域;S7.文本行生成:铁路号牌文本只有两个方向:水平方向和垂直方向,通过并行的文本行生成策略将相邻的文本连接起来得到文本行;S8.步骤7判断完成后输出的文本行中会有重复的文本行,将重复的文本行删除,得到原始图像中文本行的最终结果。进一步的,所述步骤S5的具体方法为:步骤5.1:获取字符候选区域的灰度图像,对灰度图像进行二值化,二值化的方法为将字符候选区域的前景像素点的位置赋值为0,背景像素点的位置赋值为255;步骤5.2:在二值图的基础上,遍历值为0的像素点,与两侧背景像素点距离最近或相等的点即为骨架中心点,从而获取候选区域骨架图像;步骤5.3:获取候选区域笔画宽度图像的方法:在二值图中寻找出骨架中心p到与其最近的背景像素点q的欧式距离||p-q||,将数值2||p-q||替换图像前景中射线qp经过的每个像素点的灰度值,遍历整个骨架图像,获得该候选区域的笔画宽度图像。进一步的,所述步骤S6的具体方法为:步骤6.1:利用笔画宽度变异系数滤除非文本区域;笔画宽度的变异系数可以用来度量笔画宽度变化的大小,其定义为笔画宽度的标准差与均值的比值:式中的meansw是在笔画宽度图像中求得的笔画宽度的均值,N是笔画宽度图像中前景像素的个数,xi是图像中某一点像素的笔画宽度;由于一个连通区域内文本的笔画宽度一般都会保持稳定,varsw值越小就表示笔画宽度的变化越小,此区域是文本的概率就越高;步骤6.2:根据骨架图像的端点数目滤除非文本区域;骨架端点的判断方法为:遍历每一个骨架中心像素,若该像素的八邻域中只有一个连通像素点则认为它是笔画端点。进一步的,所述步骤S7的具体方法为:步骤7.1:将整个原图像划分为若干行,按照候选区域中心点横坐标位置从左至右依次提取出属于第1,2行的候选区域;步骤7.2:对两两相邻的候选区域从左至右依次判断是否符合水平文本行关联规则,得出所有相邻候选区的判断结果,将判断为文本行的相邻候选区进行组合输出;步骤7.3:按照步骤7.2相同的方法输出划分图像第2、3行中的文本行;依次类推,直到遍历完整张图像,至此完成水平文本行的提取;步骤7.4:再将整个原图像划分为若干列,按照候选区域中心点纵坐标位置从上至下依次提取出属于第1,2列的候选区域;步骤7.5:对两两相邻的候选区域从上至下依次判断是否符合垂直文本行关联规则,得出所有相邻候选区的判断结果,将判断为文本行的相邻候选区进行组合输出;步骤7.6:按照步骤7.5相同的方法输出划分图像第2、3列中的文本行;依次类推,直到遍历完整张图像,至此完成垂直文本行的提取;进一步的,所述步骤S7中判断水平/垂直的相邻候选区域是否为文本行的方法为:1)相邻候选区的检测框中心点横/纵坐标的距离是否小于规定阈值;2)相邻候选区的检测框的高度/宽度的差值是否小于规定阈值;3)相邻候选区的距离是否小于规定阈值;4)相邻候选区中前景的笔画宽度的均值和平均灰度值的差值是否小于阈值;满足上述所有条件则认为相邻区域为文本行。本专利技术的有本文档来自技高网
...
一种基于最大稳定极值区域与笔画宽度的文本定位方法

【技术保护点】
一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法,具体包括如下步骤:S1.采集待检图像,将数字摄像采集装置固定于车辆前视挡风玻璃上,视角平行于地面,持续采集待检图像;S2.图像预处理:将待检图像转换成灰度图,采用局部直方图均衡化算法对灰度图像进行对比度增强;S3.获取全图的最大极值稳定区域:通过对步骤S2获得的图像用0到255的变化阈值分别进行二值化,在阈值变化过程中,有一些区域会在一定范围的阈值变化中保持稳定,这些稳定的区域就是最大稳定极值区域;经过上述操作只能检测出暗文本区域,对原图进行反转后再检测一次MSER,检测出亮文本区域;S4.初步形成字符候选区域:步骤4.1:对步骤S3得到的最大稳定极值区域标记一个外接的检测框,根据检测框的大小和连通区域的占有率去除明显不是字符的区域,连通区域的占有率表示连通区域面积与该连通区域外接检测框面积的比值;步骤4.2:去重复检测框:若两个检测框的左上角坐标接近,检测框尺寸也接近,则认为这两个区域重复,任意去除一个;步骤4.3:去除具有包含关系的检测框:若两个区域具有包含关系,则将大面积检测框保留,到此留存的检测框内的区域为字符候选区域;S5.获取笔画宽度图像:提取出各字符候选区域的骨架图像,对骨架图像进行距离变换得到笔画宽度图像;S6.笔画特征过滤:利用笔画宽度和骨架端点数目来滤除非文本区域;S7.文本行生成:铁路号牌文本只有两个方向:水平方向和垂直方向,通过并行的文本行生成策略将相邻的文本连接起来得到文本行;S8.步骤7判断完成后输出的文本行中会有重复的文本行,将重复的文本行删除,得到原始图像中文本行的最终结果。...

【技术特征摘要】
1.一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法,具体包括如下步骤:S1.采集待检图像,将数字摄像采集装置固定于车辆前视挡风玻璃上,视角平行于地面,持续采集待检图像;S2.图像预处理:将待检图像转换成灰度图,采用局部直方图均衡化算法对灰度图像进行对比度增强;S3.获取全图的最大极值稳定区域:通过对步骤S2获得的图像用0到255的变化阈值分别进行二值化,在阈值变化过程中,有一些区域会在一定范围的阈值变化中保持稳定,这些稳定的区域就是最大稳定极值区域;经过上述操作只能检测出暗文本区域,对原图进行反转后再检测一次MSER,检测出亮文本区域;S4.初步形成字符候选区域:步骤4.1:对步骤S3得到的最大稳定极值区域标记一个外接的检测框,根据检测框的大小和连通区域的占有率去除明显不是字符的区域,连通区域的占有率表示连通区域面积与该连通区域外接检测框面积的比值;步骤4.2:去重复检测框:若两个检测框的左上角坐标接近,检测框尺寸也接近,则认为这两个区域重复,任意去除一个;步骤4.3:去除具有包含关系的检测框:若两个区域具有包含关系,则将大面积检测框保留,到此留存的检测框内的区域为字符候选区域;S5.获取笔画宽度图像:提取出各字符候选区域的骨架图像,对骨架图像进行距离变换得到笔画宽度图像;S6.笔画特征过滤:利用笔画宽度和骨架端点数目来滤除非文本区域;S7.文本行生成:铁路号牌文本只有两个方向:水平方向和垂直方向,通过并行的文本行生成策略将相邻的文本连接起来得到文本行;S8.步骤7判断完成后输出的文本行中会有重复的文本行,将重复的文本行删除,得到原始图像中文本行的最终结果。2.如权利要求1所述的一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法,其特征在于所述步骤S5的具体方法为:步骤5.1:获取字符候选区域的灰度图像,对灰度图像进行二值化,二值化的方法为将字符候选区域的前景像素点的位置赋值为0,背景像素点的位置赋值为255;步骤5.2:在二值图的基础上,遍历值为0的像素点,与两侧背景像素点距离最近或相等的点即为骨架中心点,从而获取候选区域骨架图像;步骤5.3:获取候选区域笔画宽度图像的方法:在二值图中寻找出骨架中心p到与其最近的背景像素点q的欧式距离||p-q||,将数值2||p-q||替换图像前景中射线qp经过的每个像素点的灰度值,遍历整个骨架图像,获得该候选区域的笔画宽度图像。3.如权利要求1所...

【专利技术属性】
技术研发人员:崔国龙陈树东黎明熊丁丁黄华宾曾冬冬顾钦孔令讲
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1