基于视觉结构属性的文本定位方法及系统技术方案

技术编号：11210292 阅读：104 留言：0更新日期：2015-03-26 19:44

本发明专利技术属于图像识别技术领域，尤其涉及一种基于视觉结构属性的文本定位方法及系统。本发明专利技术从文本视觉属性的角度出发，通过颜色极性差异变换和边缘邻域末端粘合，检测出丰富的封闭边缘，以得到充裕的候选连通元，然后经过文字笔画属性特征和文本群落属性特征筛选，从候选连通元中提取出属于文字的连通元，然后通过多通道融合及去除重复连通元的方法定位出最终的文本。本发明专利技术所采用的方法鲁棒性强，适应文字语言类别混杂、字体风格多样、排列方向随机及背景存在干扰等多种情形，定位出的文本可直接提供给OCR软件进行识别，并可提高OCR软件识别率。本发明专利技术可应用在图像视频检索、垃圾信息拦截、辅助视觉导航、街景地图定位、工业装备自动化等诸多领域。

全部详细技术资料下载

【技术实现步骤摘要】
基于视觉结构属性的文本定位方法及系统
本专利技术属于图像识别
，尤其涉及一种基于视觉结构属性的文本定位方法及系统。
技术介绍
图像及视频中的文本所包含的语义信息是理解图像及视频内容的重要线索，可广泛应用于图像及视频检索、辅助视觉导航、工业装备自动化等诸多领域。然而，复杂背景下文本的0CR(0ptical Character Recognition,光学文字识别）识别率却不高，通用且高效的文本区域定位与文字分割方法依然是当前急需解决的技术难题。对于复杂背景下的文本图像，必须在进行OCR识别之前对文本进行定位、文字分割及透视校正等处理，才能较好地完成文本信息的提取。这其中，文本定位技术作为OCR识别前的关键一步，顺理成章地受到了人们的广泛关注和长期研究。然而，代表了当前最高技术水平的文本定位算法也只能使OCR识别率达到约75%，远未达到人们的期望及可以广泛应用的程度。图像分割是进行文本定位所普遍采用的方法，通过图像分割可以区分出文本区域与背景区域，以便进行文本定位。而边缘检测又是图像分割所采用的常用技术手段，在以图像分割为目的的边缘检测中，需要检测出的边缘尽可能封闭，因此，在边缘检测算子末端需要进行边缘生长、粘合等处理，使边缘尽量封闭，从而分割出整体。然而，如果边缘形状过于复杂，比如具有复杂背景的文本的边缘图像，由于复杂背景的存在，给文本的边缘图像带来了大量噪声，容易造成边缘的错误粘合，使分割出的文本与真实文本之间误差较大，并且粘合速度慢、效率低。当前主流的文本定位方法，从处理...

【技术保护点】
一种基于视觉结构属性的文本定位方法，其特征在于，包括如下步骤：RGB颜色极性差异变换：对原始图像进行RGB颜色极性差异变换，得到变换后的图像；边缘检测：将变换后的图像的两个颜色通道进行边缘检测，得到该两个颜色通道的边缘图像；同时，对原始图像进行边缘检测，得到原始图像的边缘图像；构建连通元：检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘，并将所述封闭边缘所围成的区域作为一连通元，据此在每一幅边缘图像中形成若干连通元；连通元笔画属性分析：对每一幅边缘图像中的各连通元进行笔画属性分析，将各连通元的笔画属性与预存的文字笔画属性进行比较，根据比较结果从每一幅边缘图像中提取出符合文字笔画属性的连通元；连通元群落属性分析：对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进行群落属性分析，将各连通元的群落属性与预存的文本群落属性进行比较，并根据比较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元；图像融合及文本定位：将从三幅边缘图像中提取出的符合文字笔画属性及文本群落属性的连通元融合到一幅边缘图像中，在融合的过程中去除重复的连通元，将融合后...

【技术特征摘要】
1. 一种基于视觉结构属性的文本定位方法，其特征在于，包括如下步骤： RGB颜色极性差异变换；对原始图像进行RGB颜色极性差异变换，得到变换后的图像；边缘检测；将变换后的图像的两个颜色通道进行边缘检测，得到该两个颜色通道的边缘图像桐时，对原始图像进行边缘检测，得到原始图像的边缘图像；构建连通元；检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘，并将所述封闭边缘所围成的区域作为一连通元，据此在每一幅边缘图像中形成若干连通元；连通元笔画属性分析：对每一幅边缘图像中的各连通元进行笔画属性分析，将各连通元的笔画属性与预存的文字笔画属性进行比较，根据比较结果从每一幅边缘图像中提取出符合文字笔画属性的连通元；连通元群落属性分析；对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进行群落属性分析，将各连通元的群落属性与预存的文本群落属性进行比较，并根据比较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元；图像融合及文本定位：将从H幅边缘图像中提取出的符合文字笔画属性及文本群落属性的连通元融合到一幅边缘图像中，在融合的过程中去除重复的连通元，将融合后的边缘图像中的各连通元作为文本。2. 如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，对原始图像中的每一像素，设其R、G、BH个通道的原始亮度值分别为馬、61、81，经过颜色极性差异变换后的亮度值分别为R2、G2、B2 ;则颜色极性差异变换公式为：尺2= 0. 5x [max (0, Ri_Gi) +max (0, Ri_Bi)]; G2= 0. 5x [max (0, Gi_Ri) +max (0, Gi_Bi)]; B2= 0. 5x虹ax化Bi_Ri) +max化Bi_Gi)]。3. 如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘的方法具体为：通过N*N大小的子窗口遍历每一幅边缘图像；N的取值W使该子窗口内所检测到的边缘从属于同一目标为原则；在子窗口移动的过程中，对子窗口内检测到的边缘缺口进行粘合。4. 如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，所述连通元笔画属性分析的步骤包括：分析每一幅边缘图像中各连通元的笔画属性；所述笔画属性包括：宽高比：连通元的最小包络矩形框的宽度与高度两者之中较小值与较大值的比值；回环笔画的嵌套深度；连通元中回环笔画的层数；孔洞数量：连通元内所包含的子连通元的数量；判断每一连通元的笔画属性是否同时满足W下H个条件，如果满足，则该连通元符合文字笔画属性；该连通元的宽高比在预设的第一范围内；该连通元的回环笔画的嵌套深度不大于预设的第一阔值；该连通元的孔洞数量不大于预设的第二阔值。5. 如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，所述连通元群落属性分析的步骤包括：对符合文字笔画属性的连通元中的每一对相邻连通元，通过W下步骤分析每一对相邻连通元之间的近邻相似度：分析该对相邻连通元之间的W下参数：近邻特征相似度；当相邻连通元的最小包络矩形框之间的距离处于预设的第二范围内时，该对相邻连通元之间的近邻相似度的值取为1，否则取为0 ; 尺寸相似度；相邻连通元的最小包络矩形框之间的尺寸相似度；颜色相似度；相邻连通元之间的颜色相似度；笔画宽度相似度：相邻连通元之间的笔画宽度相似度；中也紧密度相似度；中也紧密度是指连通元中也区域非空面积与该中也区域面积的比值；当相邻连通元的中也紧密度都高于预设的第H阔值时，该对相邻连通元之间的中也紧密度相似度的值取为1，否则取为0 ; 根据预设的融合规则将该对相邻连通元之间的近邻特征相似度、尺寸相似度、颜色相似度、笔画宽度相似度及中也紧密度相似度进行融合处理，得到该对相邻连通元之间的近邻相似度；将各对相邻连通元之间的近邻相似度按相似度高低划分为优、良、中、差四个等级； W各对相邻连通元之间的近邻相似度作为连接权值，构建无向图；搜索出近邻相似度为优或良的连通元对，并W该连通元对中两个连通元的最小包络矩形框的中也确定一条直线，并W该连通元对为起点，逐级向外扩展近邻相似度高于或等于中且位于该条直线上的连通元，直到没有新的连通元符合扩展条件；提取W近邻相似度为优的连通元对为起点扩展后得到的所有连通元；对于W近邻相似度为良的连通元对为起点扩展后得到的所有连通元，如果扩展的连通元个数大于或等于2,则全部提取，否则，全部不提取。6. -种基于视觉结构属性的文本定位系统，其特征在于，包括： RGB颜色极性差异变换模块，用于对原始图像进行...

【专利技术属性】
技术研发人员：王娜，李霞，翟芳冬，
申请(专利权)人：深圳大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人