一种快速多方向文本行检测方法技术

技术编号:18204810 阅读:38 留言:0更新日期:2018-06-13 06:34
本发明专利技术公开了一种快速多方向文本行检测方法,首先对待检测的自然场景图片采用MSER算法提取候选连通区域;然后对候选连通区域进行连通区域对点算法,得到候选字符区域,并通过连通规则进行分组,应用丢失字符恢复的算法得到候选文本行;最后根据候选多向文本行的特征应用AdaBoost算法进行文本行和非文本行的分类。本发明专利技术利用连通区域对点算法,对经过MSER得到的候选连通区域进行处理,降低了计算复杂度,加速了场景文本的提取速度。利用Adaboost算法提取候选多向文本行的特征,可以大大提高文本检测的准确率。

【技术实现步骤摘要】
一种快速多方向文本行检测方法
本专利技术属于图像处理
,具体地说涉及的是一种快速的多方向文本行检测方法。
技术介绍
随着智能手机和移动拍摄设备的普及,图像的数量越来越多。自然图像中的文本检测具有广泛的应用领域,例如机器人导航,人机交互和图像检索。目前,文档文本检测已经取得了巨大的进步,并且得到了广泛的应用,然而,由于自然场景图像中的文本外观的多样性和背景的复杂性,自然场景中文本的检测依然是一个具有挑战性的任务。现有的文本检测方法大致可以分为三类:基于纹理的,基于连通区域的和混合方法。在现有的方法中,大多数的方法侧重于检测水平或近似水平方向的文本。这些方法不但严重限制了利用移动设备随意拍摄图像的场景适用性,而且在应用于多方向文本图像时,它们的性能通常急剧下降。而且,大多数的方法时间复杂度较高,检测速度相对较低。如何从复杂的自然场景中快速准确地定位出多方向文本区域,这就是目前自然场景文本检测在图像领域的一个研究热点和难点。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出一种快速的多方向文本行检测方法,该快速的多方向文本行检测方法能够检测任意定向和弯曲的场景文本行,从而提高了自然场景图像中的文本检测的准确度,方便后面的识别处理。同时,大大降低了计算量,提高了文本的检测速度,方法简单有效。为解决上述技术问题,本专利技术采用的技术方案为一种快速多方向文本行检测方法,包括如下基本步骤:步骤一:对待检测的自然场景图片采用MSER算法提取候选连通区域;步骤二:对候选连通区域进行连通区域对点算法,得到候选字符区域,并通过连通规则进行分组,应用丢失字符恢复的算法得到候选文本行;步骤三:根据候选多向文本行的特征应用AdaBoost算法进行文本行和非文本行的分类。进一步,上述步骤二中,所述连通区域对点算法的具体过程如下:在每个候选连通区域上,求得边缘像素点s和梯度方向ds,若s位于笔画边缘,ds一定大致垂直于笔画方向,沿着射线r=s+n*ds(n>=0)梯度查找与之对应的另一个边缘像素点t,若ds与dt的方向满足dt=-ds±π/8,则认为边缘像素点s和t是大致相反的,如果s找不到对应的匹配的t或者ds与dt不满足大致反向的要求,那么该射线r废弃掉;如果找到满足要求的t,那么边缘像素点s和t都会被指定笔画宽度属性值||s-t||,除非该点已经被指定了一个更小的笔画宽度属性值,计算出所有边缘像素点的笔画宽度值,得到候选字符区域,对得到的候选字符区域进行概率过滤,排除一些明显不可能是字符的区域。进一步,上述概率过滤的具体过程如下:统计每一个边缘像素点的笔画宽度值,建立坐标轴,横轴代表不同的笔画宽度值,纵轴是每个笔画宽度值所对应的边缘像素点个数的归一化值,文本的笔画宽度值基本一致,因此,在坐标轴中的分布集中且尖锐,而非文本的笔画宽度值相差较大,在坐标轴中的分布均匀且平坦,计算出每个笔画宽度值所对应的边缘像素点个数归一化值的平均值E(Ns)和标准差STD(Ns),并计算出每个笔画宽度值所对应的边缘像素点个数归一化值的变化率C(Ns)=STD(Ns)/E(Ns),如果C(Ns)<0.3,则判定为候选字符区域,将其进行保留,否则,判定为非字符区域,将其进行过滤,去除每个笔画宽度所对应的边缘像素点个数相差较大的那些区域,就可以排除掉背景中一些明显不可能是字符的区域。进一步,上述步骤二中,所述连通规则用来检测候选文本行,执行连通分量算法,将相邻的候选字符区域合并以形成候选文本行,具体过程如下:在得到的候选字符区域边缘像素点上进行扫描,相邻的候选字符区域边缘像素点的平均笔画宽度比小于2,则视为同一区域,将其合并为候选文本行。进一步,上述经过连通分量算法后,连通区域被标记为两部分:候选字符区域块和未检测到字符的区域,如果未检测到文本的区域满足定义的限制条件,则可以应用丢失字符恢复的算法,所述限制条件如下:(1)与最近的候选字符区域块的笔画宽度值相等;(2)区域块的高度比小于2.0。进一步,上述步骤二所述的丢失字符恢复的算法,具体过程如下:(1)计算候选字符区域块和未检测到的块的中点,以及它们之间的最小距离,当计算出中点和最小距离后,计算角度θ’的值,计算公式如下:δ=(y2-y1)/(x2-x1),θ’=arctanδ其中,(x1,y1)和(x2,y2)分别表示候选字符区域块和未检测到的块的中点;(2)根据检测到的角度θ’,未检测到的块找到最近的垂直或者水平的候选字符区域块,将检测到的角度分别与未检测到的块每个像素的梯度方向相加,得到新的角度(θ+θ’),成为未检测到的块的梯度方向;(3)基于与候选字符区域块中的候选词的相似度,即笔画宽度值和区域块的高度比,得到未检测到的块中的候选字符,将这些候选字符区域块和未检测到的字符块合并成一组新的候选文本行。进一步,上述候选多向文本行的特征包括:(1)候选多向文本行内字符的笔画宽度比变化率(2)候选多向文本行内字符的距离变化率(3)候选多向文本行内字符的颜色变化率(4)候选多向文本行内字符的宽度/高度纵横比变化率(5)候选多向文本行内字符的面积变化率(6)候选多向文本行内字符的边缘密度变化率(7)候选多向文本行内字符的像素占有比变化率其中,Ai和Ai+1分别表示相邻两个候选区域的笔画宽度的平均值;(xi,yi)和(xi+1,yi+1)分别表示相邻两个候选域内字符的中心坐标;Yi和Yi+1分别表示相邻两个候选区域的平均颜色;Wi和Hi分别表示候选区域的宽度和高度;Area(Bi)和Area(Bi+1)分别表示相邻两个候选区域的面积;|cci|和S(cci)分别表示候选区域包含的边缘像素点的个数和候选区域的面积;T1和T2分别表示候选区域的像素数目和包围矩形像素数目;N表示候选文本行内的候选字符区域的个数;U和C分别表示变量的平均值和变化率。与现有技术相比,本专利技术具有如下的有益效果:(1)本专利技术利用连通区域对点算法,对经过MSER得到的候选连通区域进行处理,提取候选字符区域。在处理过程中,只需要关注边缘像素,降低了计算复杂度,加速了场景文本的提取速度。(2)本专利技术利用连通分量算法,将候选字符连接成候选文本行,接着使用丢失字符恢复算法,在检测到的候选文本行周围寻找候选字符区域,比起传统的在字符周围寻找候选字符区域,节省了大量的时间,因此,可以加快文本的检测速度。(3)本专利技术利用丢失字符恢复算法,在已经找到的候选文本行的周围寻找,可能扩大了候选文本行的区域,因此,可以检测到任意定向和弯曲的场景文本行。(4)本专利技术利用Adaboost算法,提取候选多向文本行的特征。Adaboost算法是一种通用算法,可以应用在许多领域中。在文本检测的应用上,Adaboost算法提取特征通常都是从单个字符的角度考虑,而这里是从文本行的角度提取特征,因为对于文本和非文本区域的区分,多个字符构成的候选文本行比起单个候选字符区域拥有更多可以判别的信息,更容易区分。因此,可以大大提高文本检测的准确率。附图说明图1是本专利技术一种快速的多方向文本行检测方法的流程示意图;图2是本专利技术MSER提取的候选连通区域;图3是本专利技术多方向文本行检测的流程示意图;图4是本专利技术恢复未检测到的字符图;(a)是弯曲文本中本文档来自技高网...
一种快速多方向文本行检测方法

【技术保护点】
一种快速多方向文本行检测方法,其特征在于,包括如下基本步骤:步骤一:对待检测的自然场景图片采用MSER算法提取候选连通区域;步骤二:对候选连通区域进行连通区域对点算法,得到候选字符区域,并通过连通规则进行分组,应用丢失字符恢复的算法得到候选文本行;步骤三:根据候选多向文本行的特征应用AdaBoost算法进行文本行和非文本行的分类。

【技术特征摘要】
1.一种快速多方向文本行检测方法,其特征在于,包括如下基本步骤:步骤一:对待检测的自然场景图片采用MSER算法提取候选连通区域;步骤二:对候选连通区域进行连通区域对点算法,得到候选字符区域,并通过连通规则进行分组,应用丢失字符恢复的算法得到候选文本行;步骤三:根据候选多向文本行的特征应用AdaBoost算法进行文本行和非文本行的分类。2.如权利要求1所述的快速多方向文本行检测方法,其特征在于步骤二中所述连通区域对点算法的具体过程如下:在每个候选连通区域上,求得边缘像素点s和梯度方向ds,若s位于笔画边缘,ds一定大致垂直于笔画方向,沿着射线r=s+n*ds(n>=0)梯度查找与之对应的另一个边缘像素点t,若ds与dt的方向满足dt=-ds±π/8,则认为边缘像素点s和t是大致相反的,如果s找不到对应的匹配的t或者ds与dt不满足大致反向的要求,那么该射线r废弃掉;如果找到满足要求的t,那么边缘像素点s和t都会被指定笔画宽度属性值||s-t||,除非该点已经被指定了一个更小的笔画宽度属性值,计算出所有边缘像素点的笔画宽度值,得到候选字符区域,对得到的候选字符区域进行概率过滤,排除一些明显不可能是字符的区域。3.如权利要求2所述的快速多方向文本行检测方法,其特征在于:所述概率过滤的具体过程如下:统计每一个边缘像素点的笔画宽度值,建立坐标轴,横轴代表不同的笔画宽度值,纵轴是每个笔画宽度值所对应的边缘像素点个数的归一化值,文本的笔画宽度值基本一致,因此,在坐标轴中的分布集中且尖锐,而非文本的笔画宽度值相差较大,在坐标轴中的分布均匀且平坦,计算出每个笔画宽度值所对应的边缘像素点个数归一化值的平均值E(Ns)和标准差STD(Ns),并计算出每个笔画宽度值所对应的边缘像素点个数归一化值的变化率C(Ns)=STD(Ns)/E(Ns),如果C(Ns)<0.3,则判定为候选字符区域,将其进行保留,否则,判定为非字符区域,将其进行过滤,去除每个笔画宽度所对应的边缘像素点个数相差较大的那些区域,就可以排除掉背景中一些明显不可能是字符的区域。4.如权利要求1所述的快速多方向文本行检测方法,其特征在于步骤二中,所述连通规则用来检测候选文本行,执行连通分量算法,将相邻的候选字符区域合并以形成候选文本行,具体过程如下:在得到的候选字符区域边缘像素点上进行扫描,相邻的候选字符区域...

【专利技术属性】
技术研发人员:方承志樊梦雅黄梅玲顾子超
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1