一种基于全卷积神经网络的自然场景文本检测方法技术

技术编号：20272729 阅读：27 留言：0更新日期：2019-02-02 03:44

本发明专利技术公开了一种基于全卷积神经网络的自然场景文本检测方法，该方法使用CNN网络提取文本的特征表示，通过特征融合模块调整特征表示，同时融合特征图高层的语义特征和低层的位置信息，使得提取的特征具有更强的表示能力，并结合文本预测模块直接预测出候选的文本对象。该方法采用了端到端的训练和预测过程，处理流程简单，无需多步骤分级处理，最后通过简单的NMS操作得到最终的检测结果，其准确度高，鲁棒性强，对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测，具有优良的自然场景文本检测性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于全卷积神经网络的自然场景文本检测方法
本专利技术属于计算机视觉
，具体涉及一种基于全卷积神经网络的自然场景文本检测方法。
技术介绍
自然场景文本通常携带了关于场景和图像内容的丰富语义信息，在图像的检索、标注、内容分析等许多应用领域具有十分重要的作用。相较于扫描文档中的文本而言，自然场景文本的字体、尺寸、方向、颜色等外观属性和图像背景、光照等因素更为复杂多变，同时自然场景图像采集时可能发生模糊、分辨率过低等情况，使得自然场景文本检测成为一件具有挑战性的任务。传统的自然场景文本检测方法可分为两类，分别是基于连通组件的文本检测方法和基于滑动窗口的文本检测方法。基于连通组件的文本检测方法通常首先提取图像中的连通组件，接着使用特定文本特征、规则或分类器对连通组件进行过滤得到候选字符，最后将候选字符拼接成文本行作为最终的文本检测结果。该类方法的文本检测性能依赖于所提取的连通组件的质量和人工选择的特征，在处理复杂的场景图像时往往难以取得令人满意的结果。基于滑动窗口的文本检测方法首先在输入图像上进行滑动窗口扫描，提取每个滑动窗口中局部图像块的特定特征，基于这些特征使用分类器确定每个滑动窗口是否对应文本区域，最后将属于同一文本对象的文本区域组合起来得到最终的文本检测结果。该类方法的性能同样依赖于所选择的特征以及分类器的能力，并且滑动窗口可能只包含整体文本对象的一个局部区域或者包含不属于文本的图像背景区域，从而影响最终文本检测的精度，需要后续处理加以精化。此外，从一幅输入图像中提取的滑动窗口数量往往很多，对每个滑动窗口进行处理使得总的计算量较大。近年来，随着深度...

【技术保护点】
1.一种基于全卷积神经网络的自然场景文本检测方法，其特征在于包括以下步骤：(1)训练基于全卷积神经网络的自然场景文本检测模型，包括以下子步骤：(1.1)获取带有标注文本框的图像数据集作为训练数据集，其中标注框的表示形式为文本框的四个顶点坐标C＝{(xi,yi)}，1≤i≤4，并按照顺时针方向排列；(1.2)构建基于全卷积神经网络的自然场景文本检测模型，并设计损失函数，根据步骤(1.1)中带标注文本框的训练数据集生成训练标签，进而基于训练数据集及其训练标签利用反向传播算法训练该文本检测模型，得到训练好的自然场景文本检测模型，包括以下子步骤：(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型，具体由特征抽取模块、特征融合模块和文本预测模块组成：所述特征抽取模块用于逐级提取输入图像的特征图，利用一系列卷积和池化操作得到图像的高层语义特征；所述特征融合模块用于对特征抽取模块提取的特征图进行精细化调整并对特征图高层的语义特征和低层的位置信息加以融合；所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测；(1.2.2)根据训练数据集生成训练标签，...

【技术特征摘要】
1.一种基于全卷积神经网络的自然场景文本检测方法，其特征在于包括以下步骤：(1)训练基于全卷积神经网络的自然场景文本检测模型，包括以下子步骤：(1.1)获取带有标注文本框的图像数据集作为训练数据集，其中标注框的表示形式为文本框的四个顶点坐标C＝{(xi,yi)}，1≤i≤4，并按照顺时针方向排列；(1.2)构建基于全卷积神经网络的自然场景文本检测模型，并设计损失函数，根据步骤(1.1)中带标注文本框的训练数据集生成训练标签，进而基于训练数据集及其训练标签利用反向传播算法训练该文本检测模型，得到训练好的自然场景文本检测模型，包括以下子步骤：(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型，具体由特征抽取模块、特征融合模块和文本预测模块组成：所述特征抽取模块用于逐级提取输入图像的特征图，利用一系列卷积和池化操作得到图像的高层语义特征；所述特征融合模块用于对特征抽取模块提取的特征图进行精细化调整并对特征图高层的语义特征和低层的位置信息加以融合；所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测；(1.2.2)根据训练数据集生成训练标签，包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q＝{(Δxi,Δyi)}，1≤i≤4；(1.2.3)将带标注文本框的训练数据集图像作为检测模型的输入，经过特征抽取模块和特征融合模块的处理，得到精细化调整并结合高层语义信息和低层位置信息的特征；(1.2.4)将提取的特征输入到文本预测模块，计算得到文本框的文本类别得分和四个顶点坐标偏移量(1.2.5)根据训练标签和文本检测模型的预测输出，基于所设计检测模型的目标损失函数，利用反向传播算法训练检测模型；(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测，具体包括以下子步骤：(2.1)将测试图像输入文本检测模型，从模型的文本预测模块的输出中得到候选文本框的文本类别得分和坐标偏移量回归结果；(2.2)对预测得到的候选文本框进行非极大值抑制操作以去除部分冗余或无效的文本框，得到最终的文本检测结果。2.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于所述特征抽取模块以ResNet-50为基本骨架网络，由5个部分组成，每个部分包含数量不等的卷积层和一个池化层，用于逐级提取输入图像的高层语义特征，输出从高到低4种不同分辨率的特征图。3.如权利要求2所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于对于输入的图像，经过ResNet-50每个部分处理后，其输出特征图的分辨率缩小2倍。4.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法，其特征在于特征融合模块主要由4个精细化调整模块串联...

【专利技术属性】
技术研发人员：汪洋，苏丰，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人