一种基于深度卷积神经网络的自然场景水平文字检测方法技术

技术编号:25891192 阅读:30 留言:0更新日期:2020-10-09 23:33
本发明专利技术请求保护一种基于深度卷积神经网络的自然场景水平文字检测方法。该方法在TextBoxes网络模型的基础上进行深度优化,通过增加新的文本预测卷积组,扩展网络深度,使网络对于小数据集的特征学习更加充分,并且在一定的模型复杂度下,充分利用多个卷积层的特征信息进行融合学习。通过对具有不同感受野的卷积层对原始图片数据进行特征学习后,利用文本预测层回归文本框的位置并预测文本类别。该检测方法有效地解决了自然场景的背景复杂性以及小数据集特征不足等因素对文字检测造成的影响。通过在Caffe平台下进行实验验证,结果表明该模型能有效提高小数据集下的自然场景水平文字检测的召回率和综合评价指标。

【技术实现步骤摘要】
一种基于深度卷积神经网络的自然场景水平文字检测方法
本专利技术属于图像处理
,特别是用于自然场景文本检测的深度卷积神经网络新型应用技术。
技术介绍
智能手机的大规模普及和互联网的快速发展带来了众多的新型产品和智能化服务,这引发了对实用视觉技术的巨大需求。文本是自然场景中最普遍的视觉对象之一,对于现实世界中的各种应用来说非常有价值,因此,自然场景文本检测和识别已经成为计算机视觉领域的研究热点之一。近年来,自然场景文字检测已经成为图像处理、计算机视觉以及自然语言处理等领域中的重要研究方向。现有的基于边缘的文字检测方法首先利用边缘特性来计算文本候选区的能量。之后根据能量值的高低排除非文本信息。最后利用相邻文本候选区之间的空间关系、颜色信息、像素强度以及尺寸信息等将相似度较高的候选区连接在一起形成文本。该检测方法原理通俗易懂,计算速度也比较快并且易于实现,但是当背景复杂时,文字的边缘特征相对而言就会变得模糊,该种方法就不能得到广泛应用。因此传统的基于边缘的文字检测方法并不适用于自然场景文字检测。现有的基于连通域的文字检测方法对图片的颜色特性或者区域极值等属性进行聚类,得到连通域,进而提取出文本候选区;然后再利用分类器去除非文本区域。该方法所得到的文本候选框数量比较少,因此在计算速度上较其他算法较快一些,并且对文字大小没有固定要求。但是在背景相对复杂的自然场景中,文本和非文本信息很难根据颜色等信息进行区分,因而很难得到较好的连通域。因此,基于连通域的文字检测方法也不适用于自然场景下的文字检测。现有的基于纹理的文字检测方法一般将文字看作是一种特殊的纹理,利用纹理本身的特殊性进行文本检测。在文本纹理和背景纹理区分过程中,常用的纹理特征包括小波变换、滤波器响应、文本较强边界以及与非文本的较大对比度等。在该算法中,利用经典的边缘检测算子进行边缘检测;其次,计算图像中的不同行空间矩阵的方差,将方差值较大的视为文本候选区,方差值较小的视为背景区域;最后通过颜色强度、连通域内像素的相似性等信息对文本候选区进行筛选,进而去除背景区域。该方法虽然能很好地适应不同字体以及不同规格大小的文本检测,但是其耗时较长,而且计算复杂度也较高,不能满足实际需求。由此可见,现有技术存在计算复杂度高、检测精度低、不适应与自然场景下背景复杂性的文字检查等技术问题。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种解决小数据集下的自然场景水平文字检测问题,克服自然场景下的背景复杂性以及其它外界因素对文字检测的不利影响的基于深度卷积神经网络的自然场景水平文字检测方法。本专利技术的技术方案如下:一种基于深度卷积神经网络的自然场景水平文字检测方法,其包括以下步骤:步骤1:获取数据集:首先获取符合小数据集特性的训练图片,并人为地添加不同程度的椒盐噪声,椒盐噪声是一种典型的数字图像噪声,之后对获得的数据集进行预处理,将获取的图片进行批量重命名和标注,并按PASCALVOC数据格式制作数据集;步骤2:数据预处理:在网络读取图片数据之前,对训练数据进行包括图片批量重命名、图片标注、数据集制作、数据集划分、数据转换等预处理;步骤3:建立网络模型:以VGG-16网络模型为基础网络,将全连接层全改为卷积组,组成全卷积层的神经网络;步骤4:训练网络:把制作好的数据集输入到步骤3的网络中进行训练;步骤5:文本框预测:对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本;步骤6:文本框筛选:通过文本框预测,得到若干文本区域候选框,采用非极大值抑制算法消除多个候选框中的冗余候选框,找到最佳文本框;步骤7:网络微调:利用反向传播不断地更新网络训练的参数,结合随机梯度下降算法来微调训练过程,反复进行直到达到最大迭代次数;步骤8:生成检测结果:将图像输入到训练好的模型中进行检测,在文本检测层中输出检测结果。进一步的,步骤1获取适应于小数据集自然场景的数据集,具体包括:所用的数据集共800张,其中229张是来源于ICDAR2013数据库,该库中的图片数据大部分是街景图片和路牌标识,图片明暗不一且字体多种多样,271张图片是从互联网上爬取的,包括建筑物标识图片和商店文本Logo,在200张图片中加入了不同程度的椒盐噪声,剩余100张图片是由原图做水平翻转得到。进一步的,所述步骤2数据预处理步骤中,将图片尺寸resize到300×300,具体包括:1.图片批量重命名:对所有图片样本通过编写脚本程序进行批量命名,命名规则为使用3位数字;2.图片标注:采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定;3.根据PASCALVOC数据格式制作数据集;4.数据集划分:将800张图片划分成3个数据集,分别为训练集、验证集和测试集,划分比例为训练集60%、证集20%、测试集20%;5.数据格式转换:通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。进一步的,所述步骤3建立网络模型具体包括:该网络由23个卷积层、23个激励层和5个池化层组成,是一个全卷积神经网络,本模型沿用VGG-16的前五个卷积组,并将最后的两个全连接层fc6、fc7均改为卷积组,并在其后新增添四个卷积组,在新增加的conv6到conv9中,每个卷积组都包含两个卷积层,并且在每个卷积层后都设置了一个激励层,基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3,填充值为1,池化层的池化窗口大小均为2×2,步长为2,经过池化层的下采样后,输出的长和宽均变为输入的一半,模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测,上述的预测层中采用1×5的卷积核,填充值Pad为2,步长为1。进一步的,所述步骤4把制作好的数据集输入到步骤3的网络中进行训练,具体包括:将归一化为300*300的图像输入网络模型中,网络输出为文本定位结果及文本分类的打分,训练基础网络模型。具体采用迭代次数为120000次,每次迭代网络读取的图片数目为32,网络每进行500次迭代便进行一次测试,每次测试读取一张测试图片。测试集中共160张图片,网络训练中每隔10次迭代就输出一次当前训练结果。进一步的,所述步骤5对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本,具体包括:1.采用SSD算法中的Defaultbox机制,设定不同规格的默认框来代替传统的批量滑动窗口,在conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层的每个特征图的每个神经元上设置不同长宽比的默认框,分别为1、2、3、5、7、10;2.网络模型将输入的文本图片和大小为1×5的卷积核做卷积运算进行特征学习,进而得到72维的特征矩阵,其中48维用于回归文本边界框,2本文档来自技高网
...

【技术保护点】
1.一种基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,包括以下步骤:/n步骤1:获取数据集:首先获取符合小数据集特性的训练图片,并人为地添加不同程度的椒盐噪声,椒盐噪声是一种典型的数字图像噪声,之后对获得的数据集进行预处理,将获取的图片进行批量重命名和标注,并按PASCAL VOC数据格式制作数据集;/n步骤2:数据预处理:在网络读取图片数据之前,对训练数据进行包括批量图片重命名、图片标注、数据集制作、数据集划分、数据格式转换在内的预处理;/n步骤3:建立网络模型:以VGG-16网络模型为基础网络,将全连接层全改为卷积组,组成全卷积层的神经网络;/n步骤4:训练网络:把制作好的数据集输入到步骤3的网络中进行训练;/n步骤5:文本框预测:对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本;/n步骤6:文本框筛选:通过文本框预测,得到若干文本区域候选框,采用非极大值抑制算法消除多个候选框中的冗余候选框,找到最佳文本框;/n步骤7:网络微调:利用反向传播不断地更新网络训练的参数,结合随机梯度下降算法来微调训练过程,反复进行直到达到最大迭代次数;/n步骤8:生成检测结果:将图像输入到训练好的模型中进行检测,在文本检测层中输出检测结果。/n...

【技术特征摘要】
1.一种基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,包括以下步骤:
步骤1:获取数据集:首先获取符合小数据集特性的训练图片,并人为地添加不同程度的椒盐噪声,椒盐噪声是一种典型的数字图像噪声,之后对获得的数据集进行预处理,将获取的图片进行批量重命名和标注,并按PASCALVOC数据格式制作数据集;
步骤2:数据预处理:在网络读取图片数据之前,对训练数据进行包括批量图片重命名、图片标注、数据集制作、数据集划分、数据格式转换在内的预处理;
步骤3:建立网络模型:以VGG-16网络模型为基础网络,将全连接层全改为卷积组,组成全卷积层的神经网络;
步骤4:训练网络:把制作好的数据集输入到步骤3的网络中进行训练;
步骤5:文本框预测:对经过步骤4网络训练后输入图片的特征进行边框回归和分类,根据类别得分情况判断预测到的边界框内容是否为文本;
步骤6:文本框筛选:通过文本框预测,得到若干文本区域候选框,采用非极大值抑制算法消除多个候选框中的冗余候选框,找到最佳文本框;
步骤7:网络微调:利用反向传播不断地更新网络训练的参数,结合随机梯度下降算法来微调训练过程,反复进行直到达到最大迭代次数;
步骤8:生成检测结果:将图像输入到训练好的模型中进行检测,在文本检测层中输出检测结果。


2.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,步骤1获取适应于小数据集自然场景的数据集,具体包括:所用的数据集共800张,其中229张是来源于ICDAR2013数据库,该库中的图片数据大部分是街景图片和路牌标识,图片明暗不一且字体多种多样,271张图片是从互联网上爬取的,包括建筑物标识图片和商店文本Logo,在200张图片中加入了不同程度的椒盐噪声,剩余100张图片是由原图做水平翻转得到。


3.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤2数据预处理步骤中,将图片尺寸resize到300×300,具体包括:
1.批量重命名:对所有图片样本通过编写脚本程序进行批量命名,命名规则为使用3位数字;
2.图片标注:采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定;
3.根据PASCALVOC数据格式制作数据集;
4.数据集划分:将800张图片划分成3个数据集,分别为训练集、验证集和测试集,划分比例为训练集60%、证集20%、测试集20%;
5.数据格式转换:通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。


4.根据权利要求3所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤3建立网络模型具体包括:该网络由23个卷积层、23个激励层和5个池化层组成,是一个全卷积神经网络,本模型沿用VGG-16的前五个卷积组,并将最后的两个全连接层fc6、fc7均改为卷积组,并在其后新增添四个卷积组,在新增加的conv6到conv9中,每个卷积组都包含两个卷积层,并且在每个卷积层后都设置了一个激励层,基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3,填充值为1,池化层的池化窗口大小均为2×2,步长为2,经过池化层的下采样后,输出的长和宽均变为输入的一半,模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测,上述的预测层中采用1×5的卷积核,填充值Pad为2,步长为1。


5.根据权利要求3所述的基于深度卷积神经网络的自然场景水平文字检测方法,其特征在于,所述步骤4把制作...

【专利技术属性】
技术研发人员:宋清洋孙巍郭志林
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1