基于连通域的自然场景文字检测方法技术

技术编号:15640413 阅读:747 留言:0更新日期:2017-06-16 05:46
本发明专利技术公开了一种基于连通域的自然场景文字检测的方法,主要解决现有的文字检测方法准确率低的问题。其实现步骤是:1)对输入的原始图像进行灰度变换得到灰度图像I

【技术实现步骤摘要】
基于连通域的自然场景文字检测方法
本专利技术属于计算机视觉
,具体涉及自然场景图像文字检测方法,可用于自动提取图像中的文字。
技术介绍
随着移动互联网的飞速发展及智能手机等移动电子设备的普及,自然场景图像的获取和传输变得越来越便捷。自然场景图像中的文字包含了丰富的信息,人们期待计算机能代替人类自动地检测并提取图像的文字信息,并将这项技术走向产业化发展,投向日常的生产和生活中,如将文字识别技术应用于无人驾驶汽车、盲人导航、工业自动化、互联网信息挖掘、电商打假、品牌曝光率调研等领域。与传统的光学字符识别不同,自然场景中的文字信息提取难点在于待检测和识别的文字处于复杂的自然场景中,如真实的街道和商场场景等,因此图像具有复杂性和多变性的特点,且存在噪声、模糊以及角度倾斜、文字字体多变等问题。近年来,面向自然场景的文字识别研究虽然取得了一定的成果,但是与实际应用要求还存在较大的差距。因此,面向自然场景的文字识别方法的研究不仅具有重要的理论研究意义,而且具有广阔的应用前景。自然场景文字识别主要包含了两个子问题:文字检测和字符识别。其中最受关注的是文字检测问题。文字检测是指对图像中是否存在文字信息进行确认,若存在文字信息则需要对文字进行定位及分割。因此,如何准确的提取出文字区域对自然场景文字识别有重要的意义。目前,在提取文字区域方法中,最常用的是最大极值稳定区域算子MSER。MSER是一种经典的连通区域检测算子。MSER算子具有非常强的鲁棒性,可以检测到低质量的文字,例如低对比度、低分辨率和模糊退化。同时因为在自然场景中有很多类似文字的场景元素的存在,如门窗、栏杆、树叶网孔、灯柱等,而且这些非文字元素在形状和颜色上与文字非常的相似,所以检测到了许多不是文字的MSER连通区域,导致文字检测的准确率下降。这是基于最大极值稳定区域进行文字定位的最主要挑战之一。
技术实现思路
本专利技术的目的在于针对上述已有技术的不足,提出一种基于连通域的自然场景图像文字检测的方法,以保证检测速度,提高文字检测的准确率。本专利技术的思路是:直接对自然场景图像进行灰度变换,利用连通域检测算子MSER提取字符候选区域,根据字符的基本几何特性以及笔画宽度特性来滤掉一些非字符区域,将剩余字符区域合并为文本行后,依次输入到训练好的卷积神经网络CNN字符检测器中进行检测,过滤掉没有字符的区域,得到最终的文字区域。其技术方案包括如下步骤:1)输入原始图像I,并对其进行灰度变换得到灰度图像IG;2)对灰度图像IG,利用最大稳定极值区域算子MSER提取字符候选区域,得到字符候选区域图像Im;3)根据字符区域的基本几何特性过滤掉Im中一些不含有字符的候选区域,得到初步过滤后的字符候选区域图像I1;3a)计算Im每一个字符候选区域的外接矩形边界框;3b)计算每个外接矩形边界框的长宽比,将长宽比大于10的字符候选区域去除;3c)计算剩余字符候选区域的欧拉数,将欧拉数小于-4的字符候选区域去除;3d)计算与剩余字符候选区域具有相同标准二阶中心矩的椭圆离心率,将离心率大于0.995的候选区域去除;3e)计算剩余字符候选区域的固靠性程度值,将该值小于0.3的候选区域去除,得到初步过滤后的字符候选区域图像I1;4)根据字符笔画宽度特性进一步过滤掉I1中一些不含有字符的候选区域,得到最终的过滤后字符区域候选图像I2;4a)分别计算出I1中每个字符候选区域的笔画宽度均值和笔画宽度标准偏差;4b)计算出笔画宽度均值与标准偏差的比值,将比值大于0.5的字符候选区域去掉,得到再次过滤后字符候选区域图像I2;5)将I2中剩余的字符候选区域合并为文本行区域;5a)将I2中剩余的字符候选区域用边界框标定;5b)分别计算每一对相邻的边界框的重叠区域面积值Sr和这两个重叠区域的总面积值Sa,获得这两个面积的比值;5c)依次将比值为非零的字符候选区域进行连接,合并成文本行区域;6)将文本行区域依次输入到卷积神经网络CNN文字检测器中,去除掉不含有文字的文本行区域,得到最终含有文字的文本行区域。本专利技术由于对输入的自然场景图像进行灰度变换后,利用最大极值稳定区域算子MSER提取字符候选区域,并通过所述的三个步骤过滤掉不含有文字的候选区域,从而准确的检测出自然场景图像中的文字。与现有的技术相比,在保证检测速度的同时,极大的提高了文字检测的准确率。附图说明图1是本专利技术的实现流程图;图2是用本专利技术对谷歌街景图像库中的自然场景图像进行文字检测的结果图;图3是用本专利技术对谷歌街景图像库中的字体倾斜的图像进行文字检测的结果图;图4是用本专利技术对ICDAR2011图像库中的含有商店标题的图像进行文字检测的结果图;图5是用本专利技术对ICDAR2011图像库中的有遮挡的图像进行文字检测的结果图。具体实施方式参照图1,本专利技术基于连通域的自然场景图像文字检测的方法,包括如下步骤:步骤1:获取灰度图像IG。输入原始图像I,对原始图像进行灰度变换,得到该图像的灰度图像IG。步骤2:获取字符候选区域图像Im。利用连通区域检测算子MSER对灰度图像IG进行区域检测,得到包含有文字和非文的连通区域,将这些连通区域作为字符候选区域,并将这些字符候选区域在图像IG上以彩色形式显示出来,得到字符候选区域图像Im。步骤3:过滤掉字符候选区域图像Im中一些不含有文字的候选区域,得到初步过滤后的字符候选区域图像I1。3a)依次计算字符候选区域图像Im中每个字符候选区域的最上边的像素点坐标(xu,yu)、最下边的像素点坐标(xd,yd)、最右边的像素点坐标(xr,yr)、最左边的像素点坐标(xl,yl),其中xu、xd、xr、xl分别代表最上边、最下边、最右边、最左边的像素点横坐标,yu、yd、yr、yl分别代表最上边、最下边、最右边、最左边的像素点纵坐标;3b)根据如下公式计算出每个候选区域的中心坐标(xc,yc):xc=(xr+xl)/2yc=(yu+yd)/2其中xc代表区域中心的横坐标,yc代表区域中心的纵坐标;3c)计算每个字符候选区域对应的外接矩形的宽w和长l:w=xr-xl,l=yu-yd;3d)依次以点(xc,yc)为中心绘制宽为w,长为l的矩形边界框;3e)计算w和l的比值,将比值大于10的字符候选区域去除;3f)依次统计剩余的每个字符候选区域的连接体数C和孔洞数H;3g)计算候选区域欧拉数的值E:E=C-H;3h)将E小于-4的字符候选区域去除;3I)计算与剩余字符候选区域具有相同标准二阶中心矩的椭圆离心率e,即通过调用Matlab中的regionprops函数求解得到椭圆离心率e:e=regionprops(L,'eccentricity')其中,e代表离心率的值,L代表待检测的字符候选区域,eccentricity代表离心率参数;3J)将e大于0.995的字符候选区域去除;3k)计算剩余字符候选区域的固靠性程度值s,即通过调用Matlab中的regionprops函数求解得到固靠性程度值s:s=regionprops(L,'solidity')其中,s代表固靠性程度值,L代表待检测的字符候选区域,solidity代表固靠性程度值参数。3l)将s小于0.3的候选区域去除,得到初步过滤后的字符候选区域图像I1。步骤4:对初本文档来自技高网
...
基于连通域的自然场景文字检测方法

【技术保护点】
一种基于连通域的自然场景文本检测方法,包括:1)输入原始图像I,并对其进行灰度变换得到灰度图像I

【技术特征摘要】
1.一种基于连通域的自然场景文本检测方法,包括:1)输入原始图像I,并对其进行灰度变换得到灰度图像IG;2)对灰度图像IG,利用最大稳定极值区域算子MSER提取字符候选区域,得到字符候选区域图像Im;3)根据字符区域的基本几何特性过滤掉Im中一些不含有字符的候选区域,得到初步过滤后的字符候选区域图像I1;3a)计算Im每一个字符候选区域的外接矩形边界框;3b)计算每个外接矩形边界框的长宽比,将长宽比大于10的字符候选区域去除;3c)计算剩余字符候选区域的欧拉数,将欧拉数小于-4的字符候选区域去除;3d)计算与剩余字符候选区域具有相同标准二阶中心矩的椭圆离心率,将离心率大于0.995的候选区域去除;3e)计算剩余字符候选区域的固靠性程度值,将该值小于0.3的候选区域去除,得到初步过滤后的字符候选区域图像I1;4)根据字符笔画宽度特性进一步过滤掉I1中一些不含有字符的候选区域,得到最终的过滤后字符区域候选图像I2;4a)分别计算出I1中每个字符候选区域的笔画宽度均值和笔画宽度标准偏差;4b)计算出笔画宽度均值与标准偏差的比值,将比值大于0.5的字符候选区域去掉,得到再次过滤后字符候选区域图像I2;5)将I2中剩余的字符候选区域合并为文本行区域;5a)将I2中剩余的字符候选区域用边界框标定;5b)分别计算每一对相邻的边界框的重叠区域面积值Sr和这两个重叠区域的总面积值Sa,获得这两个面积的比值;5c)依次将比值为非零的字符候选区域进行连接,合并成文本行区域;6)将文本行区域依次输入到卷积神经网络CNN文字检测器中,去除掉不含有文字的文本行区域,得到最终含有文字的文本行区域。2.根据权利要求1所述的方法,其中步骤3a)中计算Im每一个字符候选区域的外接矩形边界框,按如下步骤进行:3a1)依次计算每个字符候选区域的最上边的像素点坐标(xu,yu)、最下边的像素点坐标(xd,yd)、最右边的像素点坐标(xr,yr)、最左边的像素点坐标(xl,yl),其中xu、xd、xr、xl分别代表最上边、最下边、最右边、最左...

【专利技术属性】
技术研发人员:冯冬竹余航郑毓杨旭坤何晓川刘清华许录平
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1