一种定位自然场景图像中文本的方法技术

技术编号:7759558 阅读:281 留言:0更新日期:2012-09-14 02:03
本发明专利技术提出了一种定位自然场景图像中文本的方法,包括:图像连通域提取步骤,提取最稳定极值区域作为图像连通域;文本块提取步骤,针对图像连通域建立无向图模型并使用并查集提取无向图的连通域作为文本块;文本块判别步骤,提取文本块特征并使用机器学习算法进行文本块分类。根据本发明专利技术,能够快速准确地定位自然场景图像中的文本,得到的查全率和查准率高于目前现有技术中的方法。

【技术实现步骤摘要】

本专利技术属于图像文本分析领域,具体涉及ー种定位自然场景图像中文本的方法
技术介绍
以往的定位自然场景图像中文本的方法大致可以归为两类基于文本块的和基于图像连通域的。基于文本块的方法使用滑动窗ロ在图像中捜索可能的文本块,然后使用机器学习的算法进行文本块判定。基于图像连通域的方法首先通过某些方法提取图像中的连通域,然后将连通域聚合成文本块,并通过进一歩的检查或使用机器学习算法进行文本块的判定。在非专利文献I中,通过聚合具有相似笔划宽度的像素点形成连通域,得到的连通域经过过滤后聚合成文本。非专利文献2是ー种基于文本块的方法,使用了文本块的水平和垂直梯度变化率的方差特征。非专利文献3中提到ー种基于连通域的方法。该方法使 用最稳定极值区域作为连通域,连通域聚合成文本块后提取文本块的梯度特征,并使用级联的分类器对文本块进行判定。在目前已有的方法中,文本的查全率和查全率较低,处理速度较慢。非专利文献I :B. Epshtein, E. Ofek, and Y. ffexler. Detecting text innatural scenes with stroke width transform. Computer Vision and PatternRecognition (CVPR),2010 IEEE Conference on,pages 2963-2970,June 2010非专利文献2:Χ· Chen and A. Yuille. Detecting and reading text in naturalscenes.In Computer Vision and Pattern Recognition,2004. CVPR 2004.Proceedingsof the 2004 IEEE Computer Society Conference on, volume 2, pages 11-366-11-373Vol. 2,june-2 july 2004非专利文献3:A. Shahab,F. Shafait,and A. Dengel. ICDAR 2011 robust readingcompetition challenge 2 !Reading text in scene images. In Document Analysis andRecognition (ICDAR),2011 International Conference on,pages 1491-1496,sept.201
技术实现思路
针对现有技术存在查全率和查准率低,处理速度慢的缺点,本专利技术提出了ー种定位自然场景图像中文本的方法。本专利技术提出的定位自然场景图像中文本的方法包括图像连通域提取步骤,提取最稳定极值区域作为图像连通域;文本块提取步骤,针对图像连通域建立无向图模型并使用并查集提取无向图的连通域作为文本块;文本块判别步骤,提取文本块特征并使用机器学习算法进行文本块分类。在文本块提取步骤,定义无向图模型的邻接关系时考虑了连通域的高、宽、中心点、颜色和笔划宽度特征。在文本块识别步骤,提取的文本块特征包括文本块内连通域的笔划宽度、颜色、饱和度(compactness)、极值区域稳定性和水平垂直两个方向梯度变化率的方差和笔划宽度的均值。文本块判别步骤使用了 AdaBoost学习算法进行文本块分类。根据本专利技术,能够快速准确地定位自然场景图像中的文本,得到的查全率和查准率高于目前报告的方法。附图说明图I是本专利技术中的定位自然场景 图像中文本的方法的系统流程图;图2是本专利技术中文本块提取流程图;图3是本专利技术中文本块判别流程图;图4是本专利技术中像素点的笔划宽度提取示意图;图5是本专利技术中基于连通域的文本块提取算法示意图;图6是本专利技术中文本块基于梯度变化率特征的提取示意图;图7是本专利技术中连通域边缘像素点导数计算示意图。具体实施例方式以下结合附图对本专利技术的具体实施方式作详细说明。图I是依据本专利技术的的定位自然场景图像中文本的方法的系统流程图。 如图I所示,依据本专利技术的定位自然场景图像中文本的方法包括图像连通域提取步骤101、文本块提取步骤102和文本块判别步骤103。图像连通域提取步骤101使用OpenCV的库函数提取最稳定极值区域作为图像连通域。上述库函数需要设定一系列參数控制提取过程,各个參数的具体设定为delta =7,minArea = 60,maxArea = O. 08 · imageWidthX imageHeight, maxVariation = 0. 25,minDiversity = 0. 5。图2是文本块提取步骤102的流程图,包括针对图像连通域的无向图建模的步骤201和基于无向图连通域的文本块提取的步骤202。步骤201建立无向图模型G = (V,E),其中V是顶点集,其元素为步骤101提取的连通域;E是边集,其元素为由具有邻接关系的连通域所组成的无序对。顶点之间的邻接关系是通过连通域之间的距离确定的。定义连通域u, V之间的距离为d(u, V) = Σ meMdm(u,v)wm,其中M是考虑的特征集合,包括高、宽、中心点、顔色和笔划宽度,dm(u,v)为连通域特征m下u, V的距离,Wm为分配给特征m的权重。当且仅当d(u,v) < e时,连通域u, v是邻接的,其中e为阈值。各个特征的权重为wmidth = I. O,Wheight = I. 5,wcentroidX I· ^ ^centroidYI.り,WCQiQr 2. 5,WstrQke 2. Do步骤201中连通域的高、宽、中心点分别为连通域最小包围矩形的高、宽、中心点。以下为步骤201中各个特征下连通域的距离计算公式。长lin !i/hlf it) — In I Ijh I ( r Jl ('I」· maxi //("I. Iii ifilil I Π )宽n-nli h u ) — fi'nli h i r I#f “'.丨x ' ,-% . maxi" U n'uiUii r j I中心点X坐标权利要求1.ー种定位自然场景图像中文本的方法,其特征在于,该方法包括以下步骤 1)图像连通域提取步骤提取最稳定极值区域作为图像连通域; 2)文本块提取步骤针对图像连通域建立无向图模型并提取无向图的连通域作为文本块; 3)文本块判别步骤提取文本块特征并使用机器学习算法进行文本块分类。2.根据权利要求I所述的方法,其特征在于,所述步骤(2)中的针对图像连通域建立无向图模型,是使用所述图像的连通域作为无向图模型的顶点,根据图像连通域之间的距离是否足够小来确定顶点间的邻接关系。3.根据权利要求2所述的方法,其特征在于,所述连通域之间的距离为连通域之间高、宽、中心点、颜色和笔划宽度差异的加权和。4.根据权利要求3所述的方法,其特征在于,所述连通域的笔划宽度为连通域内部分像素点笔划宽度的均值。5.根据权利要求4所述的方法,其特征在于,所述的像素点的笔划宽度定义为穿过该像素点并落在连通域内的从上到下,从左到右,从左上到右下,从右上到左下的四条线段长度的最小值。6.根据权利要求I所述的方法,其特征在于,所述的提取无向图连通域的文本块,是使用并查集本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:殷绪成尹绪旺郝红卫
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1