确定区域结构复杂度、定位文字区域的方法及装置制造方法及图纸

技术编号:9143497 阅读:131 留言:0更新日期:2013-09-12 05:02
本申请提供了一种确定区域结构复杂度、定位文字区域的方法及装置,主要内容为:首先确定数字图像的候选区域中的连通分量,其次,提取所述连通分量的轮廓,并对提取的所述轮廓进行多边形逼近,得到反映所述轮廓的多边形,最后,根据所述多边形中的内凹顶点个数确定所述候选区域的区域结构复杂度。通过本申请实施例的方案,仅将能反映文字笔画信息的内凹顶点作为确定区域结构复杂度的依据,有效排除了作为干扰信息的外凸顶点,使得确定出的区域结构复杂度能较准确的反映候选区域的区域结构复杂度。

【技术实现步骤摘要】
确定区域结构复杂度、定位文字区域的方法及装置
本申请涉及数字图像处理
,尤其涉及一种确定区域结构复杂度、定位文字区域的方法及装置。
技术介绍
随着数码相机的推广和互联网技术的发展,自然场景下拍摄的数字图像和人工编辑生成的数字图像越来越多,在诸如扫描文档内容识别、自动邮政编码识别等文字识别场景下,需要对上述数字图像中的文字进行识别,而绝大部分数字图像中除文字外存在较为复杂的背景图像,为了识别具有复杂背景的数字图像中的文字,需要首先对文字区域进行定位,也即区分数字图像中的文字区域和非文字区域。因文字区域通常是结构化区域,有比较明显的几何形状(如:汉字中常常出现转折;拉丁字母中有较多的圆弧),而非文字区域的结构或形状通常比较杂乱,没有规律,或比较简单(如:斑点、条纹),故通常利用区域结构复杂度这一度量的值的大小来区分数字图像中的文字区域和非文字区域,区域结构复杂度越大,则数字图像为文字区域的可能性越大;区域结构复杂度越小,则数字图像为文字区域的可能性越小。所述区域结构复杂度是指:区域结构的转折、分叉、孔洞等几何上变化次数和程度的度量。目前,确定区域结构复杂度的方法分为两类,第一类为间接确定区域结构复杂度;第二类为直接确定区域结构复杂度。其中:第一类方法并不提取区域结构的转折、分叉或孔洞等特征,而是利用区域结构的其他特征,如:文字与外接椭圆(或外接矩形、外接凸多边形)的面积比、文字面积与周长比、区域压缩率(即文字面积和周长平方比),来确定区域结构复杂度,这些特征能够区分相对简单的斑点、直线,但对于比较复杂的形状就无能为力了,因此使用这类方法确定区域结构复杂度,进而用来反映区域是文字区域的准确性较差,只能用在确定文字区域的粗过滤阶段,用来确定那些最不可能为文字区域的图片。第二类方法中,常用的确定区域结构复杂度的方法有以下四种:第一种方法:确定数字图像的候选区域的连通分量,在连通分量上提取Harris角点,统计Harris角点的个数,将统计得到的Harris角点的个数作为候选区域的区域结构复杂度。所述连通分量是指:在数字图像处理中,对于一个点集,如果其中的任何两个点之间,都存在一条由点集内的点序列组成的路径连接,那么这个点集构成了连通分量。序列中相邻的两点必须为邻接关系。如图1所示,每个小方格表示一个像素点,白色为背景区域,区域和区域是两个8邻接的连通分量。确定连通分量的方法较多,常用的是:先利用Niblack算法对图像进行分割(根据图像的颜色或灰度信息将图像分为不同的层的过程),再采用基于区域增长的算法对分割后的图像进行连通分量分析,即可得到连通分量。在上述第一种方法中,确定出的Harris角点往往不是真正的笔画转折点,如在图2所示的连通分量中提取出的Harris角点(图2中以黑色实点表示)均不是笔画转折点,因此,利用所述第一种方法来确定区域结构复杂度的准确性不高。第二种方法:确定数字图像的候选区域的连通分量,对连通分量进行骨骼化,统计骨骼上分叉点得个数,将统计得到的分叉点的个数作为候选区域的区域结构复杂度。在上述第二种方法中,对连通分量进行骨骼化时,利用的骨骼化算法容易受到强噪声的干扰,噪声区域往往会被作为新的分叉点。例如,在图3所示的对连通分量(图3中较细的黑色实线表示)进行骨骼化后的图形(图3中较粗的黑色实线即为连通分量的骨骼),因噪声的作用,骨骼中出现了本来没有的分叉点(图3中以黑色实点表示)。这就错误的增加了区域结构的复杂度,因此所述第二种方法来确定区域结构复杂度的准确性不高。第三种方法:确定数字图像的候选区域的连通分量,寻找连通分量内部孔洞,统计孔洞的个数,将统计得到的孔洞的个数作为候选区域的区域结构复杂度。上述第三种方法,一定程度上能反映候选区域的区域结构复杂度,但对于不含孔洞或孔洞数量极少的候选区域,尽管该候选区域实际上是文字区域,但用确定的区域结构复杂度判定时,判定的结果会为非文字区域,因此,所述第三种方法来确定区域结构复杂度的准确性不高。第四种方法:第一步,确定数字图像的候选区域的连通分量。第二步,对确定的连通分量进行轮廓提取。第三步,对提取的轮廓进行多边形逼近,得到反映所述轮廓的多边形。所述多边形逼近是指:对于一个不规则的图形轮廓,采用一个多边形来逼近这个轮廓,以减少顶点的数目。常见的多边形逼近的方法有以下两种:第一种为最少边方式逼近:给定一个最大容忍误差,做边最少的多边形来逼近不规则图形的轮廓。常用的最大容忍误差是根据候选区域的大小来确定的,候选区域越大,最大容忍误差越大,候选区域越小,最大容忍误差越小。这就导致了对于同等大小的候选区域,含有较粗笔画的文字的候选区域,可能会保留噪声带来的顶点,而对于笔画较细的文字,可能会无法提取到反映笔画的顶点。第二种为最小误差方式逼近:给定N条边,做误差最小的N边形来逼近不规则图形的轮廓。第四步,提取多边形的顶点,并统计多边形顶点的个数。第五步,多边形顶点的个数作为所述候选区域的区域结构复杂度。上述第四种方法,一定程度上反映了候选区域的区域结构复杂度,但多边形的顶点并非全部是真正的笔画转折点,在某些情况下,可能出现区域结构复杂度较高,但图像并非是文字区域的情况。例如,在图4所示的对某一连通分量进行多边形逼近后得到的多边形ABCDEF中,尽管有多个顶点,但所有的顶点并没有反映笔画及笔画转折信息,也即该连通分量的区域复杂度较高,但其所代表的区域并不是文字区域,故将多边形顶点的个数作为区域结构复杂度的准确性不高,由于文字区域的定位是根据区域结构复杂度确定的,因此利用得到的准确性不高的区域结构复杂度来定位文字区域的准确性相应的也不高。
技术实现思路
本申请实施例提供一种确定区域结构复杂度、定位文字区域方法及装置,以解决现有技术中确定区域结构复杂度的方法确定出的区域结构复杂度准确性不高及定位数字图像中的文字区域准确性不高的问题。一种确定区域结构复杂度的方法,所述方法包括:确定数字图像的候选区域中的连通分量;提取所述连通分量的轮廓,并对提取的所述轮廓进行多边形逼近,得到反映所述轮廓的多边形;根据所述多边形中的内凹顶点个数,确定所述候选区域的区域结构复杂度。一种利用上述方法确定的候选区域的区域结构复杂度来定位文字区域的方法,所述方法包括:判断确定的区域结构复杂度是否大于设定阈值;若大于设定阈值,则确定所述候选区域为文字区域。一种确定区域结构复杂度的装置,所述装置包括:连通分量确定模块,用于确定数字图像的候选区域中的连通分量;轮廓提取模块,用于提取连通分量确定模块确定的连通分量的轮廓;多边形逼近模块,用于对轮廓提取模块提取的轮廓进行多边形逼近,得到反映所述轮廓的多边形;内凹顶点确定模块,用于确定所述多边形内凹顶点的个数;区域结构复杂度确定模块,用于根据内凹顶点确定模块确定的所述多边形中的内凹顶点个数确定所述候选区域的区域结构复杂度。一种定位文字区域的装置,所述定位文字区域的装置包括上述确定区域结构复杂度的装置,所述定位文字区域的装置还包括:判断模块,用于判断确定的区域结构复杂度是否大于设定阈值;定位模块,用于在判断模块的判断结果为是时,确定所述候选区域为文字区域。在本申请实施例的方案中,根据多边形中内凹顶点的个数确定候选区域的区本文档来自技高网
...
确定区域结构复杂度、定位文字区域的方法及装置

【技术保护点】
一种确定区域结构复杂度的方法,其特征在于,所述方法包括:确定数字图像的候选区域中的连通分量;提取所述连通分量的轮廓,并对提取的所述轮廓进行多边形逼近,得到反映所述轮廓的多边形;根据所述多边形中的内凹顶点个数,确定所述候选区域的区域结构复杂度。

【技术特征摘要】
1.一种确定区域结构复杂度的方法,其特征在于,所述方法包括:确定数字图像的候选区域中的连通分量;提取所述连通分量的轮廓,并对提取的所述轮廓进行多边形逼近,得到反映所述轮廓的多边形;根据所述多边形中的内凹顶点个数,确定所述候选区域的区域结构复杂度。2.如权利要求1所述的方法,其特征在于,对所述轮廓进行多边形逼近,具体包括:确定所述轮廓的最大宽度,以及该最大宽度对应的多边形逼近的最大容忍误差;根据确定的所述多边形逼近的最大容忍误差,利用最少边方式对轮廓进行多边形逼近。3.如权利要求1所述的方法,其特征在于,通过以下方式确定多边形中的内凹顶点:将多边形图形内部角度大于180度的顶点作为多边形中的内凹顶点;或在多边形图形内部按照顺时针方向,依次对多边形图形内部各顶点执行以下操作:判断顶点的第一条边在顺时针方向上的延长线指向该顶点第二条边的夹角方向是否是逆时针方向,所述第一条边是该顶点在顺时针方向上与该顶点相邻的前一顶点之间的连线,第二条边是该顶点在顺时针方向上与该顶点相邻的后一顶点之间的连线;若判断结果为逆时针方向,则确定该顶点为内凹顶点。4.如权利要求3所述的方法,其特征在于,根据所述多边形中的内凹顶点个数,确定所述候选区域的区域结构复杂度,具体包括:针对确定的每个内凹顶点执行以下操作,直至遍历所有的内凹顶点:确定与当前执行操作的内凹顶点之间的距离小于设定值的其他顶点;将当前执行操作的内凹顶点的第一条边在顺时针方向上的延长线指向该顶点第二条边的夹角,与所述其他顶点的夹角进行矢量相加;若矢量相加后的结果不属于预设的范围值内,则确定当前执行操作的内凹顶点能够用于确定候选区域的区域结构复杂度;根据确定的能够用于确定候选区域的区域结构复杂度的内凹顶点的个数,确定所述候选区域的区域结构复杂度。5.如权利要求3所述的方法,其特征在于,根据所述多边形中的内凹顶点个数,确定所述候选区域的区域结构复杂度,具体包括:针对确定的连续的内凹顶点执行以下操作:确定连续的内凹顶点中,每个内凹顶点的第一条边在顺时针方向上的延长线指向该顶点第二条边的夹角,将确定的各夹角进行矢量相加;若矢量相加后的结果不小于第一门限值,则确定所述连续的内凹顶点都能够用于确定候选区域的区域结构复杂度;针对确定的孤立的内凹顶点执行以下操作:若确定该内凹顶点的第一条边在顺时针方向上的延长线指向该顶点第二条边的夹角不小于第一门限...

【专利技术属性】
技术研发人员:郑琪王永攀
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1