基于直方图和超像素的场景图像文字检测方法及系统技术方案

技术编号:10256715 阅读:170 留言:0更新日期:2014-07-25 11:40
本发明专利技术涉及基于直方图和超像素的场景图像文字检测方法,包括:步骤1:对目标图片中可能存在的文字的笔画宽度值进行估计,基于笔画宽度值生成一个笔画直方图;步骤2:对目标图片进行边缘检测,进行比对和修正,得到边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素估算高精度笔画宽度;步骤4:根据高精度笔画宽度过滤字符与非字符;步骤5:通过连通域的空间分布利用几何约束进一步过滤字符与非字符,过滤文本行和非文本行;步骤6:完成对目标图片中对字符和文本行的检测。本发明专利技术提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。

【技术实现步骤摘要】

本专利技术涉及基于直方图和超像素的场景图像文字检测方法及系统,属于信息安全和计算机视觉领域。
技术介绍
近年来,随着内置相机的移动设备的增加,各类在自然场景中拍摄的照片数量成爆炸性增长。很多非常有价值的应用,例如:基于文字信息的图片查询、智能驾驶辅助、视力障碍人员的阅读辅助和场景的理解等,都依赖于从图片中获取文字信息的方法。因此,自然场景中的文字提取与识别作为处理这种新数据来源的核心问题,成为近年来计算机视觉研究的热点话题。文字检测方法包括基于连通域分析的方法和基于滑动窗口的方法。基于连通域分析的方法通过对图片中的连通域进行分析,并通过对文字空间分布约束及几何特性来过滤字符和非字符。Epshtein等[1]提出使用边缘检测算法提取出图片中的边缘,并利用梯度信息等来计算这些边缘组成区域的“笔画”宽度来做为分类依据;在Epshtein工作的基础上,黄韡林等[2]提出在计算“笔画”宽度时需要保持“笔画”的颜色一致性,以及使用协方差描述符来对检测到的文本行和字符进行过滤。另一类文字检测的算法主要是通过滑动窗口实现的,例如Cunzhao Shi等[3]提出的使用梯度直方图来构造基于部件的树结构文字检测算法;Jung等[4]提出的使用笔画滤波器来进行多尺度的文字检测。与基于滑动窗口的方法相比,基于连通域的方法计算复杂度低,但是比较依赖于边缘检测的质量,在光照复杂和图片质量较低的环境中效果略差。由于场景图像中的文字颜色和字体等的种类、变化较多,并且基于滑动窗口的方法需要在多个尺度对图像基于分析,因此,该方法计算复杂度较高,而且常常需要一个大的训练集对分类器进行训练。在基于连通域分析的方法中,基于“笔画”宽度的算法由于其简单性和有效性获得了很多关注,并且出现了一些对该算法的改进算法。然而,在文字受到部分遮挡或噪音较多的情况下,受边缘检测和梯度估算的精确度的影响,这些算法的性能依然不是十分理想。
技术实现思路
本专利技术所要解决的技术问题是,针对现有技术使用超像素修正在复杂环境中边缘检测失效的不足,提供一种提高检测算法的召回率和准确率的基于笔画宽度直方图和超像素的场景图像文字检测方法。本专利技术解决上述技术问题的技术方案如下:基于直方图和超像素的场景图像文字检测方法,具体包括以下步骤:步骤1:对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图;步骤2:将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度;步骤4:根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;步骤5:通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行;步骤6:完成对目标图片中对精准字符和文本行的检测。本专利技术的有益效果是:本专利技术针对文字检测问题中的文字的边缘特性提高边缘检测质量;提出一种高速和高精度的笔画宽度计算方法,以提高文字与非文字连通域过滤的精度和效率。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,还包括步骤7:统计文本行中各个精准字符之间的距离值,设定词内的字符距离阈值和词间距离阈值;步骤8:根据字符距离阈值和词间距离阈值对文本行分割为精准字符。采用上述进一步方案的有益效果是,根据字符距离阈值和词间距离阈值对文本行分割为字符后,可以为后续的字符识别提供便利。进一步,所述步骤5中所述的几何约束包括笔画宽度一致性、宽高比、连通域之间的重叠性等。进一步,步骤1具体包括以下步骤:步骤1.1:使用Canny边缘检测算子计算得到目标图片中的多个边缘像素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘像素的梯度值;步骤1.2:以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方向进行搜索所有存在的边缘像素;判断是否存在与基准边缘像素成对的映射边缘像素,如果存在,执行步骤1.3;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2;步骤1.3:判断映射边缘像素的梯度值与基准边缘像素梯度值差值是否在150度到210度之间,如果是,执行步骤1.4;否则,删除此作为基准边缘像素的边缘像素,返回执行步骤1.2;步骤1.4:计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度值;步骤1.5:判断是否还存在边缘像素,如果存在,返回执行步骤1.2;否则,执行步骤1.6;步骤1.6:基于步骤1.4得到的笔画宽度值生成笔画直方图。进一步,步骤2具体包括以下步骤:步骤2.1:选择笔画直方图中频率较大的几个笔画宽度值作为超像素的搜索步长值;步骤2.2:查找得到间隔大小为搜索步长值的格点,选择该格点附近梯度最小的位置作为超像素的初始质心;步骤2.3:迭代执行步骤2.1和2.2,更新并计算出各个超像素在图片上的实际质心和边界;步骤2.4:降低Canny边缘检测算子的阈值,检测图片的新的大范围边缘;步骤2.5:将大范围边缘与超像素的边界进行比对和修正,对修正后的大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片的大范围边缘;步骤2.6:对图片的大范围边缘进行连通域分析,计算大范围边缘的欧式距离变换图(采用现有技术中的距离变换为图像的常用算法进行计算),得到在此笔画宽度值的情况下,边缘检测质量最高的连通域。进一步,所述步骤3具体为:使用Sobel算子计算欧式距离变换图的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度。本专利技术所要解决的技术问题是,针对现有技术使用超像素修正在复杂环境中边缘检测失效的不足,提供一种提高检测算法的召回率和准确率的基于笔画宽度直方图和超像素的场景图像文字检测系统。本专利技术解决上述技术问题的技术方案如下:基于直方图和超像素的场景图像文字检测系统,包括:估计模块、边缘检测模块、骨架化模块、过滤模块和二次过滤模块;所述估计模块对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图,并将笔画直方图发送到边缘本文档来自技高网
...
基于直方图和超像素的场景图像文字检测方法及系统

【技术保护点】
基于直方图和超像素的场景图像文字检测方法,其特征在于,具体包括以下步骤:步骤1:对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,基于笔画宽度值生成一个笔画直方图;步骤2:将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽度值进行估算得到高精度笔画宽度;步骤4:根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,得到字符;步骤5:通过连通域的空间分布利用几何约束进一步对得到的字符进行过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,得到文本行;步骤6:完成对目标图片中对精准字符和文本行的检测。

【技术特征摘要】
1.基于直方图和超像素的场景图像文字检测方法,其特征在于,具体
包括以下步骤:
步骤1:对目标图片中可能存在的文字宽度值进行估计得到笔画宽度值,
基于笔画宽度值生成一个笔画直方图;
步骤2:将笔画直方图中的笔画宽度值设置为超像素的步长参数;对目
标图片进行边缘检测,将上述设定了步长参数的超像素与边缘检测的结果进
行比对和修正,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域;
步骤3:对连通域进行骨架化,得到骨架像素;根据骨架像素对笔画宽
度值进行估算得到高精度笔画宽度;
步骤4:根据高精度笔画宽度对目标图片进行过滤,区分字符与非字符,
得到字符;
步骤5:通过连通域的空间分布利用几何约束进一步对得到的字符进行
过滤,得到精准字符,并基于精准字符区分目标图片中文本行和非文本行,
得到文本行;
步骤6:完成对目标图片中对精准字符和文本行的检测。
2.根据权利要求1所述的基于直方图和超像素的场景图像文字检测方
法,其特征在于,还包括步骤7:统计文本行中各个精准字符之间的距离值,
设定词内的字符距离阈值和词间距离阈值;
步骤8:根据字符距离阈值和词间距离阈值对文本行分割为精准字符。
3.根据权利要求2所述的基于直方图和超像素的场景图像文字检测方
法,其特征在于,所述步骤3具体为:使用Sobel算子计算欧式距离变换图
的梯度,将其中梯度接近零的像素设为骨架像素;根据骨架像素对笔画宽度
值进行估算得到高精度笔画宽度;
所述步骤5中所述的几何约束包括笔画宽度一致性、宽高比、连通域之
间的重叠性。
4.根据权利要求3所述的基于直方图和超像素的场景图像文字检测方
法,其特征在于,步骤1具体包括以下步骤:
步骤1.1:使用Canny边缘检测算子计算得到目标图片中的多个边缘像
素;使用Sobel算子计算得到目标图片的梯度值;得到目标图片中所有边缘
像素的梯度值;
步骤1.2:以一个边缘像素为基准边缘像素,向基准边缘像素的梯度方
向进行搜索所有存在的边缘像素;判断是否存在与基准边缘像素成对的映射
边缘像素,如果存在,执行步骤1.3;否则,删除此作为基准边缘像素的边
缘像素,返回执行步骤1.2;
步骤1.3:判断映射边缘像素的梯度值与基准边缘像素梯度值差值是否
在150度到210度之间,如果是,执行步骤1.4;否则,删除此作为基准边
缘像素的边缘像素,返回执行步骤1.2;
步骤1.4:计算映射边缘像素与基准边缘像素之间的距离得到笔画宽度
值;
步骤1.5:判断是否还存在边缘像素,如果存在,返回执行步骤1.2;
否则,执行步骤1.6;
步骤1.6:基于步骤1.4得到的笔画宽度值生成笔画直方图。
5.根据权利要求1-4中任一项所述的基于直方图和超像素的场景图像文
字检测方法,其特征在于,步骤2具体包括以下步骤:
步骤2.1:选择笔画直方图中频率较大的几个笔画宽度值作为超像素的
搜索步长值;
步骤2.2:查找得到间隔大小为搜索步长值的格点,选择该格点附近梯
度最小的位置作为超像素的初始质心;
步骤2.3:迭代执行步骤2.1和2.2,更新并计算出各个超像素在图片
上的实际质心和边界;
步骤2.4:降低Canny边缘检测算子的阈值,检测图片的新的大范围边
缘;
步骤2.5:将大范围边缘与超像素的边界进行比对和修正,对修正后的
大范围边缘去除与当前笔画宽度不同的干扰,得到满足笔画宽度规律的图片
的大范围边缘;
步骤2.6:对图片的大范围边缘进行连通域分析,计算大范围边缘的欧
式距离变换图,得到在此笔画宽度值的情况下,边缘检测质量最高的连通域。<...

【专利技术属性】
技术研发人员:张永铮周宇
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1