当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于全卷积神经网络的自然场景文本检测方法技术

技术编号:20272729 阅读:27 留言:0更新日期:2019-02-02 03:44
本发明专利技术公开了一种基于全卷积神经网络的自然场景文本检测方法,该方法使用CNN网络提取文本的特征表示,通过特征融合模块调整特征表示,同时融合特征图高层的语义特征和低层的位置信息,使得提取的特征具有更强的表示能力,并结合文本预测模块直接预测出候选的文本对象。该方法采用了端到端的训练和预测过程,处理流程简单,无需多步骤分级处理,最后通过简单的NMS操作得到最终的检测结果,其准确度高,鲁棒性强,对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测,具有优良的自然场景文本检测性能。

【技术实现步骤摘要】
一种基于全卷积神经网络的自然场景文本检测方法
本专利技术属于计算机视觉
,具体涉及一种基于全卷积神经网络的自然场景文本检测方法。
技术介绍
自然场景文本通常携带了关于场景和图像内容的丰富语义信息,在图像的检索、标注、内容分析等许多应用领域具有十分重要的作用。相较于扫描文档中的文本而言,自然场景文本的字体、尺寸、方向、颜色等外观属性和图像背景、光照等因素更为复杂多变,同时自然场景图像采集时可能发生模糊、分辨率过低等情况,使得自然场景文本检测成为一件具有挑战性的任务。传统的自然场景文本检测方法可分为两类,分别是基于连通组件的文本检测方法和基于滑动窗口的文本检测方法。基于连通组件的文本检测方法通常首先提取图像中的连通组件,接着使用特定文本特征、规则或分类器对连通组件进行过滤得到候选字符,最后将候选字符拼接成文本行作为最终的文本检测结果。该类方法的文本检测性能依赖于所提取的连通组件的质量和人工选择的特征,在处理复杂的场景图像时往往难以取得令人满意的结果。基于滑动窗口的文本检测方法首先在输入图像上进行滑动窗口扫描,提取每个滑动窗口中局部图像块的特定特征,基于这些特征使用分类器确定每个滑动窗口是否对应文本区域,最后将属于同一文本对象的文本区域组合起来得到最终的文本检测结果。该类方法的性能同样依赖于所选择的特征以及分类器的能力,并且滑动窗口可能只包含整体文本对象的一个局部区域或者包含不属于文本的图像背景区域,从而影响最终文本检测的精度,需要后续处理加以精化。此外,从一幅输入图像中提取的滑动窗口数量往往很多,对每个滑动窗口进行处理使得总的计算量较大。近年来,随着深度神经网络例如卷积神经网络(ConvolutionalNeuralNetwork,CNN)在各种计算机视觉任务中的广泛应用并且取得了不错的效果,基于深度神经网络的文本检测方法已经成为主流。在面对复杂场景中的文本检测任务时,相对于传统方法中人工设计的特征,该类方法能够自动从图像数据中学习并提取更加鲁棒和表示能力更强的特征,从而获得泛化能力更强的文本检测模型,并且模型的训练和预测是端到端的,不需要复杂处理流程的同时能够取得更好的文本检测效果。常见的基于深度神经网络的文本检测模型一般借鉴计算机视觉研究中提出的各类目标检测模型,例如Faster-RCNN,SSD等。这些模型一般包含多个卷积层和池化层,通过不断卷积及池化操作实现不同层次特征的提取,一方面提高了特征语义表达的能力,但另一方面也损失了精确的位置信息,一定程度上影响了文本对象的准确检测。
技术实现思路
传统的自然场景文本检测方法依赖于人工设计的特征并且采取多步骤的检测流程,很难获得针对复杂自然场景图像中令人满意的文本检测性能。当前主流的基于深度学习的文本检测模型一般通过多个卷积和池化操作提取不同抽象级别的文本特征表示,提高了特征的语义表达能力,但在降低特征图分辨率的同时损失了精确的位置信息,影响了最终的文本检测性能。为了解决上述问题,本专利技术提供了一种基于全卷积神经网络的自然场景文本检测方法。本专利技术具体采用如下技术方案:一种基于全卷积神经网络的自然场景文本检测方法,其特征在于包括以下步骤:(1)训练基于全卷积神经网络的自然场景文本检测模型,包括以下子步骤:(1.1)获取带有标注文本框的图像数据集作为训练数据集,其中标注框的表示形式为文本框的四个顶点坐标C={(xi,yi)},1≤i≤4,并按照顺时针方向排列。(1.2)构建基于全卷积神经网络的自然场景文本检测模型,并设计损失函数,根据步骤(1.1)中带标注文本框的数据集生成训练标签,进而基于训练数据集及其训练标签利用反向传播(BackPropagation,BP)算法训练该文本检测模型,得到训练好的自然场景文本检测模型,包括以下子步骤:(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型,具体由特征抽取模块、特征融合模块和文本预测模块组成;所述特征抽取模块用于逐级提取输入图像的特征图,所述特征融合模块用于对特征抽取模块逐级提取的特征图进行精细化调整并加以融合,所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测;(1.2.2)根据训练数据集生成训练标签,包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q={(Δxi,Δyi)},1≤i≤4;(1.2.3)将带标注文本框的训练数据集图像作为检测模型的输入,经过特征抽取模块和特征融合模块的处理,得到精细化调整并结合高层语义信息和低层位置信息的特征;(1.2.4)将提取的特征输入到文本预测模块,计算得到文本框的文本类别得分和四个顶点坐标偏移量(1.2.5)根据训练标签和文本检测模型的预测输出,基于所设计检测模型的目标损失函数,利用反向传播算法训练检测模型。(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测,具体包括以下子步骤:(2.1)将测试图像输入文本检测模型,从模型的文本预测模块的输出中得到候选文本框的类别得分和坐标偏移量回归结果;(2.2)对预测得到的候选文本框进行非极大值抑制操作以去除部分冗余或无效的文本框,得到最终的文本检测结果。本专利技术公开的一种基于全卷积神经网络的自然场景文本检测方法,该方法使用CNN网络提取文本的特征表示,通过特征融合模块调整特征表示,同时融合特征图高层的语义特征和低层的位置信息,使得提取的特征具有更强的表示能力,并结合文本预测模块直接预测出候选的文本对象。该方法采用了端到端的训练和预测过程,处理流程简单,无需多步骤分级处理,最后通过简单的非极大值抑制(Non-MaximumSuppression,NMS)操作得到最终的检测结果,其准确度高,鲁棒性强,对于复杂背景的自然场景图像中的多方向、多尺寸的文本对象也能很好地予以检测,具有优良的自然场景文本检测性能。附图说明图1.本专利技术基于深度全卷积网络的自然场景文本检测方法的流程图;图2.本专利技术自然场景文本检测模型的网络结构图;图3.本专利技术精细化模块(RefineBlock)结构图;图4.本专利技术实施例中使用自然场景文本检测模型对测试图像进行检测获得的文本框结果图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术的保护范围。首先对本专利技术中的术语进行解释和说明:ResNet-50:ResNet是何凯明等人提出的用于目标检测的网络模型架构,根据所采用网络层数的不同命名为ResNet-34、ResNet-50、ResNet-152等。ResNet一般包含5个部分,其中第1个部分由采用7*7卷积核的卷积层组成,然后通过卷积核为3*3、步长为2的池化层,后4个部分每个由数量不等的卷积核为3*3的卷积层和一个池化层组成。ResNet具有强大的特征表示能力,常在不同计算机视觉任务中用作基础网络。残差块(residualunit):残差块是ResNet中的一种基础模块,它采用残差学习的思想,将输入的特征图通过残差学习分支(由2个卷积操作和Relu(Rectifie本文档来自技高网
...

【技术保护点】
1.一种基于全卷积神经网络的自然场景文本检测方法,其特征在于包括以下步骤:(1)训练基于全卷积神经网络的自然场景文本检测模型,包括以下子步骤:(1.1)获取带有标注文本框的图像数据集作为训练数据集,其中标注框的表示形式为文本框的四个顶点坐标C={(xi,yi)},1≤i≤4,并按照顺时针方向排列;(1.2)构建基于全卷积神经网络的自然场景文本检测模型,并设计损失函数,根据步骤(1.1)中带标注文本框的训练数据集生成训练标签,进而基于训练数据集及其训练标签利用反向传播算法训练该文本检测模型,得到训练好的自然场景文本检测模型,包括以下子步骤:(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型,具体由特征抽取模块、特征融合模块和文本预测模块组成:所述特征抽取模块用于逐级提取输入图像的特征图,利用一系列卷积和池化操作得到图像的高层语义特征;所述特征融合模块用于对特征抽取模块提取的特征图进行精细化调整并对特征图高层的语义特征和低层的位置信息加以融合;所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测;(1.2.2)根据训练数据集生成训练标签,包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q={(Δxi,Δyi)},1≤i≤4;(1.2.3)将带标注文本框的训练数据集图像作为检测模型的输入,经过特征抽取模块和特征融合模块的处理,得到精细化调整并结合高层语义信息和低层位置信息的特征;(1.2.4)将提取的特征输入到文本预测模块,计算得到文本框的文本类别得分和四个顶点坐标偏移量...

【技术特征摘要】
1.一种基于全卷积神经网络的自然场景文本检测方法,其特征在于包括以下步骤:(1)训练基于全卷积神经网络的自然场景文本检测模型,包括以下子步骤:(1.1)获取带有标注文本框的图像数据集作为训练数据集,其中标注框的表示形式为文本框的四个顶点坐标C={(xi,yi)},1≤i≤4,并按照顺时针方向排列;(1.2)构建基于全卷积神经网络的自然场景文本检测模型,并设计损失函数,根据步骤(1.1)中带标注文本框的训练数据集生成训练标签,进而基于训练数据集及其训练标签利用反向传播算法训练该文本检测模型,得到训练好的自然场景文本检测模型,包括以下子步骤:(1.2.1)构建基于全卷积神经网络的自然场景文本检测模型,具体由特征抽取模块、特征融合模块和文本预测模块组成:所述特征抽取模块用于逐级提取输入图像的特征图,利用一系列卷积和池化操作得到图像的高层语义特征;所述特征融合模块用于对特征抽取模块提取的特征图进行精细化调整并对特征图高层的语义特征和低层的位置信息加以融合;所述文本预测模块用于对特征融合模块融合操作后输出的特征图进行文本类别得分预测和坐标偏移量回归预测;(1.2.2)根据训练数据集生成训练标签,包括标注文本框的文本/非文本类别以及四个顶点坐标偏移量Q={(Δxi,Δyi)},1≤i≤4;(1.2.3)将带标注文本框的训练数据集图像作为检测模型的输入,经过特征抽取模块和特征融合模块的处理,得到精细化调整并结合高层语义信息和低层位置信息的特征;(1.2.4)将提取的特征输入到文本预测模块,计算得到文本框的文本类别得分和四个顶点坐标偏移量(1.2.5)根据训练标签和文本检测模型的预测输出,基于所设计检测模型的目标损失函数,利用反向传播算法训练检测模型;(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测,具体包括以下子步骤:(2.1)将测试图像输入文本检测模型,从模型的文本预测模块的输出中得到候选文本框的文本类别得分和坐标偏移量回归结果;(2.2)对预测得到的候选文本框进行非极大值抑制操作以去除部分冗余或无效的文本框,得到最终的文本检测结果。2.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于所述特征抽取模块以ResNet-50为基本骨架网络,由5个部分组成,每个部分包含数量不等的卷积层和一个池化层,用于逐级提取输入图像的高层语义特征,输出从高到低4种不同分辨率的特征图。3.如权利要求2所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于对于输入的图像,经过ResNet-50每个部分处理后,其输出特征图的分辨率缩小2倍。4.如权利要求1所述的基于全卷积神经网络的自然场景文本检测方法,其特征在于特征融合模块主要由4个精细化调整模块串联...

【专利技术属性】
技术研发人员:汪洋苏丰
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1