一种基于深度卷积神经网络的自然场景水平文字检测方法技术

技术编号：25891192 阅读：30 留言：0更新日期：2020-10-09 23:33

本发明专利技术请求保护一种基于深度卷积神经网络的自然场景水平文字检测方法。该方法在TextBoxes网络模型的基础上进行深度优化，通过增加新的文本预测卷积组，扩展网络深度，使网络对于小数据集的特征学习更加充分，并且在一定的模型复杂度下，充分利用多个卷积层的特征信息进行融合学习。通过对具有不同感受野的卷积层对原始图片数据进行特征学习后，利用文本预测层回归文本框的位置并预测文本类别。该检测方法有效地解决了自然场景的背景复杂性以及小数据集特征不足等因素对文字检测造成的影响。通过在Caffe平台下进行实验验证，结果表明该模型能有效提高小数据集下的自然场景水平文字检测的召回率和综合评价指标。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度卷积神经网络的自然场景水平文字检测方法
本专利技术属于图像处理
，特别是用于自然场景文本检测的深度卷积神经网络新型应用技术。
技术介绍
智能手机的大规模普及和互联网的快速发展带来了众多的新型产品和智能化服务，这引发了对实用视觉技术的巨大需求。文本是自然场景中最普遍的视觉对象之一，对于现实世界中的各种应用来说非常有价值，因此，自然场景文本检测和识别已经成为计算机视觉领域的研究热点之一。近年来，自然场景文字检测已经成为图像处理、计算机视觉以及自然语言处理等领域中的重要研究方向。现有的基于边缘的文字检测方法首先利用边缘特性来计算文本候选区的能量。之后根据能量值的高低排除非文本信息。最后利用相邻文本候选区之间的空间关系、颜色信息、像素强度以及尺寸信息等将相似度较高的候选区连接在一起形成文本。该检测方法原理通俗易懂，计算速度也比较快并且易于实现，但是当背景复杂时，文字的边缘特征相对而言就会变得模糊，该种方法就不能得到广泛应用。因此传统的基于边缘的文字检测方法并不适用于自然场景文字检测。现有的基于连通域的文字检测方法对图片的颜色特性或者区域极值等属性进行聚类，得到连通域，进而提取出文本候选区；然后再利用分类器去除非文本区域。该方法所得到的文本候选框数量比较少，因此在计算速度上较其他算法较快一些，并且对文字大小没有固定要求。但是在背景相对复杂的自然场景中，文本和非文本信息很难根据颜色等信息进行区分，因而很难得到较好的连通域。因此，基于连通域的文字检测方法也不适用于自然场景下的文字检测。现有...

【技术保护点】
1.一种基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，包括以下步骤：/n步骤1：获取数据集：首先获取符合小数据集特性的训练图片，并人为地添加不同程度的椒盐噪声，椒盐噪声是一种典型的数字图像噪声，之后对获得的数据集进行预处理，将获取的图片进行批量重命名和标注，并按PASCAL VOC数据格式制作数据集；/n步骤2：数据预处理：在网络读取图片数据之前，对训练数据进行包括批量图片重命名、图片标注、数据集制作、数据集划分、数据格式转换在内的预处理；/n步骤3：建立网络模型：以VGG-16网络模型为基础网络，将全连接层全改为卷积组，组成全卷积层的神经网络；/n步骤4：训练网络：把制作好的数据集输入到步骤3的网络中进行训练；/n步骤5：文本框预测：对经过步骤4网络训练后输入图片的特征进行边框回归和分类，根据类别得分情况判断预测到的边界框内容是否为文本；/n步骤6：文本框筛选：通过文本框预测，得到若干文本区域候选框，采用非极大值抑制算法消除多个候选框中的冗余候选框，找到最佳文本框；/n步骤7：网络微调：利用反向传播不断地更新网络训练的参数，结合随机梯度下降算法来微调训练过程，反复进行直...

【技术特征摘要】
1.一种基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，包括以下步骤：
步骤1：获取数据集：首先获取符合小数据集特性的训练图片，并人为地添加不同程度的椒盐噪声，椒盐噪声是一种典型的数字图像噪声，之后对获得的数据集进行预处理，将获取的图片进行批量重命名和标注，并按PASCALVOC数据格式制作数据集；
步骤2：数据预处理：在网络读取图片数据之前，对训练数据进行包括批量图片重命名、图片标注、数据集制作、数据集划分、数据格式转换在内的预处理；
步骤3：建立网络模型：以VGG-16网络模型为基础网络，将全连接层全改为卷积组，组成全卷积层的神经网络；
步骤4：训练网络：把制作好的数据集输入到步骤3的网络中进行训练；
步骤5：文本框预测：对经过步骤4网络训练后输入图片的特征进行边框回归和分类，根据类别得分情况判断预测到的边界框内容是否为文本；
步骤6：文本框筛选：通过文本框预测，得到若干文本区域候选框，采用非极大值抑制算法消除多个候选框中的冗余候选框，找到最佳文本框；
步骤7：网络微调：利用反向传播不断地更新网络训练的参数，结合随机梯度下降算法来微调训练过程，反复进行直到达到最大迭代次数；
步骤8：生成检测结果：将图像输入到训练好的模型中进行检测，在文本检测层中输出检测结果。

2.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，步骤1获取适应于小数据集自然场景的数据集，具体包括：所用的数据集共800张，其中229张是来源于ICDAR2013数据库，该库中的图片数据大部分是街景图片和路牌标识，图片明暗不一且字体多种多样，271张图片是从互联网上爬取的，包括建筑物标识图片和商店文本Logo，在200张图片中加入了不同程度的椒盐噪声，剩余100张图片是由原图做水平翻转得到。

3.根据权利要求1所述的基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，所述步骤2数据预处理步骤中，将图片尺寸resize到300×300，具体包括：
1.批量重命名：对所有图片样本通过编写脚本程序进行批量命名，命名规则为使用3位数字；
2.图片标注：采用MATLAB语言设计的一个VOC图像标注工具对训练集的图片进行文本位置标定；
3.根据PASCALVOC数据格式制作数据集；
4.数据集划分：将800张图片划分成3个数据集，分别为训练集、验证集和测试集，划分比例为训练集60％、证集20％、测试集20％；
5.数据格式转换：通过脚本文件将JPG格式的图片数据转换为Caffe能识别的LMDB数据。

4.根据权利要求3所述的基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，所述步骤3建立网络模型具体包括：该网络由23个卷积层、23个激励层和5个池化层组成，是一个全卷积神经网络，本模型沿用VGG-16的前五个卷积组，并将最后的两个全连接层fc6、fc7均改为卷积组，并在其后新增添四个卷积组，在新增加的conv6到conv9中，每个卷积组都包含两个卷积层，并且在每个卷积层后都设置了一个激励层，基础网络部分(conv1-conv5)中的卷积层使用的卷积核大小均为3×3，填充值为1，池化层的池化窗口大小均为2×2，步长为2，经过池化层的下采样后，输出的长和宽均变为输入的一半，模型中采用conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2层做预测，上述的预测层中采用1×5的卷积核，填充值Pad为2，步长为1。

5.根据权利要求3所述的基于深度卷积神经网络的自然场景水平文字检测方法，其特征在于，所述步骤4把制作...

【专利技术属性】
技术研发人员：宋清洋，孙巍，郭志林，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人