当前位置: 首页 > 专利查询>孙晓航专利>正文

一种字符区域提取方法及系统技术方案

技术编号:11864142 阅读:75 留言:0更新日期:2015-08-12 13:33
本发明专利技术属于图像文档处理技术领域,具体涉及一种字符区域提取方法及系统。所述方法包括获取场景图片并进行灰度处理得到灰度图像;对所得灰度图像利用增强滤波算子对字符区域增强,得到增强图片;利用线密度滤波器对所述增强图片进行滤波处理,得到候选联通区域;利用条件滤波器对所述候选联通区域进行筛选得到字符区域。所述系统包括图像预处理单元、图像增强滤波单元、候选联通区域定位单元及字符区域判决单元。本发明专利技术对字符区域的提取方面非常快速鲁棒,并且计算性能很低、功耗很小,可以广泛的应用在文档字符提取、车牌提取、自然场景中的文字提取等领域,具有广泛的社会和经济效益。

【技术实现步骤摘要】

本专利技术属于图像文档处理
,具体涉及一种字符区域提取方法及系统
技术介绍
自然场景中的文字检测具有非常重要的应用,比如抽取文档图像中的文字信息、 抽取名片中的文字信息、身份证扫描件中的信息,以及自然场景中的盲人语言理解、机器人 导航、汽车牌照的抽取等。因此高效的字符区域抽取方法具有广泛而重要的应用与意义。 目前,有许多研宄及专利公开文件利用各种方式以提取图像中的字符信息,比如 申请号为201410143919. 6的中国专利技术专利申请公开了一种针对早期专利文档扫描件中图 文信息的智能处理方法,该方法将扫描图像转化为二值二维矩阵后去噪,切割成粗块后再 综合坐标、直方图和大小判断的分类器判定文本块,并且通过多次切割、识别和匹配对模糊 或复杂的内容进行判定。该方法通过多重切割、识别和匹配提高了图文匹配准确性,但需要 计算的要素多,步骤复杂,效率低。 专利号为201210178001. 6的中国专利技术公开了一种车牌类型识别中的车牌字符序 列识别方法及装置,该方法对车牌所在候选区域进行二值化处理后,再进行预处理过程,将 车牌所在候选区域中的干扰去除,然后根据每一列在垂直方向的投影值之和与投影阈值之 间的关系,确定每个字符的左右边界,为了提高识别的准确性,在本专利技术中还根据字符所在 的区域的宽度将字符区域进行合并,并通过字符之间的高度,去除伪字符对字符识别过程 的干扰,在减少干扰后的车牌所在候选区域中,根据字符的数目,以及字符之间的距离确定 车牌字符序列。上述方法采用线性逻辑实现,实现程序较简单,但由于依然是基于垂直投影 方法,不能完全解决字符粘连无法准确分割的问题,且提取速度较慢。 专利号ZL200880131943. 0的中国专利公开了字符区域提取装置、具备字符区域 提取功能的摄像装置以及字符区域提取程序,字符区域提取装置接收对被摄体进行摄像而 得到的图像数据,利用第1阈值将图像数据整体二值化,并分离成像素饱和的反射区域和 像素值不饱和的非反射区域;接着,利用第2阈值将反射区域二值化并分离成字符区域和 背景区域;同样地,利用第3阈值将非反射区域二值化并分离成字符区域或背景区域;合并 反射区域和非反射区域各自的字符区域,并确定图像数据中的字符区域的位置信息。该方 法定位精确,但处理速度慢。
技术实现思路
为了克服现有技术的缺点与不足,本专利技术的首要目的在于提供一种高效的字符区 域提取方法,以提高自然场景中文字检测的快速性与鲁棒性。 本专利技术的首要目的通过下述技术方案实现: 一种字符区域提取方法,包括以下步骤: SI.获取场景图片并进行灰度处理得到灰度图像; S2.对所得灰度图像利用增强滤波算子对字符区域增强,得到增强图片; S3.利用线密度滤波器对所述增强图片进行滤波处理,得到候选联通区域; S4.利用条件滤波器对所述候选联通区域进行筛选得到字符区域。 优选的,步骤S2中所述增强滤波算子具体为: S21、首先利用边缘检测算子对灰度图像求取边缘点; S22、遍历边缘点,对每个边缘点在灰度图像上求取其LBP向量; LBP,即为局部二值模式(Local Binary Patterns); S23、在灰度图像上对每个边缘点在R领域内寻找其匹配的LBP对,即满足匹配函 数为最大的LBP,其中R领域满足:最大字符宽度< R < (2 X最大字符宽度); S24、找到LBP对后将这两点间的所有像素点置为255,再经过二值化处理得到增 强图片。 优选的,步骤S21所述边缘检测算子为:Roberts算子、Sobel算子、Kirsch算子、 Prewitt算子、Laplacian算子、LoG算子或Canny算子;更优选的,所述边缘检测算子为 Canny算子; 优选的,步骤S23中所述匹配函数为:【主权项】1. 一种字符区域提取方法,其特征在于:包括以下步骤:51. 获取场景图片并进行灰度处理得到灰度图像;52. 对所得灰度图像利用增强滤波算子对字符区域增强,得到增强图片;53. 利用线密度滤波器对所述增强图片进行滤波处理,得到候选联通区域;54. 利用条件滤波器对所述候选联通区域进行筛选得到字符区域。2. 根据权利要求1所述的字符区域提取方法,其特征在于:步骤S2中所述增强滤波算 子具体为: 521、 首先利用边缘检测算子对灰度图像求取边缘点; 522、 遍历边缘点,对每个边缘点在灰度图像上求取其LBP向量; 523、 在灰度图像上对每个边缘点在R领域内寻找其匹配的LBP对,即满足匹配函数为 最大的LBP,其中R领域满足:最大字符宽度< R < (2 X最大字符宽度); 524、 找到LBP对后将这两点间的所有像素点置为255,再经过二值化处理得到增强图 片。3. 根据权利要求2所述的字符区域提取方法,其特征在于:步骤S21所述边缘检测算 子为:Roberts算子、Sobel算子、Kirsch算子、Prewitt算子、Laplacian算子、LoG算子或 Canny算子; 步骤S23中所述匹配函数为:又〇尺[仲2)。4. 根据权利要求1所述的字符区域提取方法,其特征在于:步骤S3中所述线密度滤波 器分为横向滤波器和纵向滤波器; 所述横向滤波器进行滤波处理的具体操作为:首先设定线段长度阈值IenThresh和 线密度阈值desityThresh,接着循环每一行,寻找到两个黑色线段长度都大于IenThresh 的线段,计算这两个线段中间的线密度;线密度的计算公式为白色点的数目除以这两 个线段中间的长度,白色点是图像值为255的点;如果线密度大于设定的线密度阈值 densityThresh,则把中间所有的点置为白色255 ;遍历所有的行,各行之间互不干扰; 所述纵向滤波器进行滤波处理的具体操作为将图像进行转置后利用横向滤波器的操 作进行滤波处理。5. 根据权利要求1所述的字符区域提取方法,其特征在于:步骤S4所述条件滤波器 为:首先求取候选联通区域的MSER块,然后根据所得MSER块的中心坐标进行能量计算,能 量达到较小者就是字符区域。6. 根据权利要求5所述的字符区域提取方法,其特征在于:所述能量计算的具体公式 为··,其中η为MESR区域的数目,n> = 3 ;i> = 2 ;x,y为 MSER区域的中心坐标。7. -种字符区域提取系统,其特征在于,包括: 图像预处理单元,用于获取场景图片并进行灰度处理得到灰度图像; 图像增强滤波单元,用于对所得灰度图像利用增强滤波算子对字符区域增强,得到增 强图片; 候选联通区域定位单元,用于利用线密度滤波器对所述增强图片进行滤波处理,得到 候选联通区域; 字符区域判决单元,用于利用条件滤波器对所述候选联通区域进行筛选得到字符区 域。8. 根据权利要求7所述的字符区域提取方法,其特征在于,所述图像增强滤波单元包 括: 边缘点检测模块,用于利用边缘检测算子对灰度图像求取边缘点; LBP向量求取模块,用于对每个边缘点在灰度图像上求取其LBP向量; LBP对匹配模块,用于在灰度图像上对每个边缘点在R领域内寻找其匹配的LBP对,即 满足匹配函数为最大的LBP,其中R领域满足:最大字符宽度< R < (2 X最大本文档来自技高网
...

【技术保护点】
一种字符区域提取方法,其特征在于:包括以下步骤:S1.获取场景图片并进行灰度处理得到灰度图像;S2.对所得灰度图像利用增强滤波算子对字符区域增强,得到增强图片;S3.利用线密度滤波器对所述增强图片进行滤波处理,得到候选联通区域;S4.利用条件滤波器对所述候选联通区域进行筛选得到字符区域。

【技术特征摘要】

【专利技术属性】
技术研发人员:孙晓航
申请(专利权)人:孙晓航
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1