一种基于深度学习的自然场景文本检测方法技术

技术编号:21892798 阅读:21 留言:0更新日期:2019-08-17 14:51
本发明专利技术公开了一种基于深度学习的自然场景文本检测方法。该方法使用CNN网络提取文本的多尺度特征,然后使用RNN编码这些特征以充分利用文本的上下文特性;接着,将特征图输入ROI池化层并输出一系列的文本提议。在经过非极大值抑制之后,最后通过一个文本连接器将生成的文本提议连接起来,从而灵活高效地实现多尺度、多方向的文本检测。本发明专利技术提升了多方向、变尺度条件下自然场景文本检测的准确率和召回率。

A Natural Scene Text Detection Method Based on Deep Learning

【技术实现步骤摘要】
一种基于深度学习的自然场景文本检测方法
本专利技术属于图像处理
,具体涉及一种基于深度学习的自然场景文本检测方法。
技术介绍
场景文本检测是文本识别的重要前提,常被应用在图像检索、机器翻译、自动驾驶等领域。但是,文本检测在复杂背景、多尺度、多语言、光照不均匀、模糊等情况下的检测仍然存在着诸多困难。自然场景文本的多样性与多变性:相比与文档中的文本,自然场景的文本可能是多尺度、多语言的,形状、方向、比例、颜色可能各不相同,这些变化都给文本的检测带来了诸多挑战。复杂背景:场景文本可能在任意的背景中出现,包括信号标示、砖块或是草丛、栅栏,这些背景可能具有和文本非常相似的特征,可能成为噪声影响文本的判断。同时,还有异物的遮挡造成的文本的缺失,导致潜在的检测错误。参差不齐的成像质量:由于不可控的收集手段,无法保证成像的质量。用于检测的图像可能由于不同的拍摄角度或是拍摄距离造成畸变、虚焦,或是由于拍摄时光照的不同形成噪点、阴影。针对自然场景文本检测问题,可将检测方法分为两类,一类是传统的检测方法,另一类是基于深度学习的检测方法。传统的方法有基于纹理的方法,如使用局部强度、滤波器响应、小波系数等;有基于区域的方法,如笔画宽度变换(StrokeWidthTransform,SWT)、最大极值稳定区域(MaximallyStableExtremalRegions,MSER)、笔画特征变换(StrokeFeatureTransform,SFT)等。近年来,随着深度神经网络的发展,深度学习在计算机视觉领域表现出越来越大的优势。目前,最流行的还是基于卷积神经网络(ConvolutionalNeuralNetworks,CNN)的深度学习方法。在使用了深度学习之后,大大提高了文本检测的准确性,并且将人们从复杂的特征设计工作中解放出来。常用的基于深度学习的自然场景文本检测模型通常基于常见的目标检测模型,如RCNN、YOLO、SSD等。这些模型的基本结构通常是用数个卷积层和池化层提取特征,最后使用全连接层进行检测框的分类和回归。
技术实现思路
为了更加准确高效地在自然场景中进行文本检测,解决自然场景中文本多方向、变尺度的检测问题,本专利技术提出了一种基于深度学习的自然场景文本检测方法。本专利技术的目的至少通过如下技术方案之一实现。一种基于深度学习的自然场景文本检测方法,包括如下步骤:(1)构建并训练基于神经网络的自然场景文本检测模型,包含以下子步骤:(1.1)构建基于特征金字塔网络(FeaturePyramidNetworks,FPN)的特征提取器;(1.2)使用循环神经网络(RecurrentNeuralNetwork,RNN)对特征提取器提取到的特征进行编码;(1.3)使用ROI池化层进一步提高检测的精度;(1.4)最后使用全连接层进行检测框的分类和回归,形成文本检测模型;(1.5)将经过标注的训练图形输入模型;使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型;(2)使用上述训练完成的自然场景文本检测模型对给定图像中的自然场景文本进行检测,包含以下子步骤:(2.1)输入待检测图像,使用上述训练后模型对给定图像进行文版检测,输出一系列文本提议检测框的得分和坐标。(2.2)对得到的文本提议进行非极大值抑制,以去除部分冗余检测框。(2.3)使用文本连接器对一系列的文本提议进行连接,生成最终的检测结果。与现有技术相比,本专利技术具有如下优点和技术效果:(1)本专利技术对于变尺度的文本检测,使用了特征金字塔网络(FeaturePyramidNetworks,FPN),能够高效地同时利用各个不同大小的卷积层的信息,相比于使用最后一层特征图的方法,同时利用了高层的强语义信息和底层的高分辨率信息,从而实现更高的召回率和准确率;相比与基于图像金字塔的方法,则大大降低了计算量。(2)对于多方向的文本检测,采用输出一系列文本提议的方式,最后通过文本连接器将这些文本提议连接起来,相比于使用任意四边形或是旋转矩形的方法,使用了更少的参数,从而对多方向文本的检测更加灵活高效。附图说明图1为实施例中自然场景文本检测流程图。图2为实施例中使用的自然场景文本检测模型架构图。图3为实施例中使用本专利技术的文本检测方法在不同场景下检测的实际结果图。具体实施方式为了使本专利技术的技术方案及优点更加清楚明白,以下结合附图,进行进一步的详细说明,但本专利技术的实施和保护不限于此。首先说明本专利技术中的术语:特征金字塔网络(FeaturePyramidNetworks,FPN):FPN直接在原来的骨架网络上做修改,每个分辨率的特征图引入后一分辨率缩放两倍的特征图做每个元素对应相加的操作。通过这样的连接,每一层预测所用的特征图都融合了不同分辨率、不同语义强度的特征,融合的不同分辨率的特征图分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。残差网络(ResNet):是何凯明于2015年提出的深度卷积网络模型,根据模型所采用的层数的不同,分别命名为ResNet-34、ResNet-50、ResNet-101、ResNet-152等。非极大值抑制(Non-MaximumSuppression,NMS):抑制不是极大值的元素,可以理解为局部最大搜索。输出的每个检测框都有一个分数,这些检测框可能存在包含和交叉的情况,使用NMS来选取领域里得分最高的检测框,并抑制那些分数低的检测框。如图1所示,本专利技术中基于深度学习的自然场景文本检测模型,包括以下步骤:(1)构建并训练基于神经网络的自然场景文本检测模型,如图2所示,包含以下子步骤:(1.1)构建基于特征金字塔网络(FeaturePyramidNetworks,FPN)的特征提取器。使用ResNet-101作为骨架网络,生成特征金字塔,使用其中的从P2到P5的层级的特征。(1.2)使用循环神经网络(RecurrentNeuralNetwork,RNN)对提取到的特征进行编码。使用512个隐藏层的双向长短时记忆循环神经网络(Bi-directionalLongShort-TermMemory,Bi-LSTM)作为RNN对提取到的特征进行编码。(1.3)使用ROI池化层进一步提高检测的精度。ROI池化的具体操作如下:(1.3.1)根据输入的图像,将ROI映射到特征图的对应位置;(1.3.2)将映射后的区域划分为相同大小的部分,划分的数量与输出的维度相同;(1.3.3)对每个部分进行最大池化操作。(1.4)最后使用全连接层进行检测框的分类和回归。经过ROI池化的特征分别通过两个全连接层进行分类和回归。若输出的检测框的数量为k,其中分类层输出的维度为2k,对应着文本和背景;回归层输出的维度为4k,对应检测框的左上和右下2个坐标。(1.5)输入经过标注的训练图形对模型进行训练。其中,训练图像可以使用四边形标注,也可以使用矩形标注。但在输入模型之前,需将其按给定的宽度分割,若训练图像标注为四边形,则取其分割后的最小外接矩形;若标注为矩形,则直接分割。设计包含分类损失和回归损失的多任务损失函数。使用设计的损失函数进行损失的计算:其中L、Lcls和Lreg分别为总损失、分类损失和回归损失,λ是平衡分类损失和回归损失之间的权重系数。p本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的自然场景文本检测方法,其特征在于包括以下步骤:(1)构建并训练基于神经网络的自然场景文本检测模型,包括:(1.1)构建基于特征金字塔网络(Feature Pyramid Networks,FPN)的特征提取器;(1.2)使用循环神经网络(Recurrent Neural Network,RNN)对特征提取器提取到的特征进行编码;(1.3)使用ROI池化层进一步提高检测的精度;(1.4)最后使用全连接层进行检测框的分类和回归,形成文本检测模型;(1.5)将经过标注的训练图形输入模型;(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型;(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测,包含以下子步骤:(2.1)输入待检测图像,使用训练后的自然场景文本检测模型对给定图像进行文本检测,输出一系列文本提议检测框的得分和坐标;(2.2)对得到的文本提议进行非极大值抑制,以去除部分冗余检测框;(2.3)使用文本连接器对一系列的文本提议进行连接,生成最终的检测结果。

【技术特征摘要】
1.一种基于深度学习的自然场景文本检测方法,其特征在于包括以下步骤:(1)构建并训练基于神经网络的自然场景文本检测模型,包括:(1.1)构建基于特征金字塔网络(FeaturePyramidNetworks,FPN)的特征提取器;(1.2)使用循环神经网络(RecurrentNeuralNetwork,RNN)对特征提取器提取到的特征进行编码;(1.3)使用ROI池化层进一步提高检测的精度;(1.4)最后使用全连接层进行检测框的分类和回归,形成文本检测模型;(1.5)将经过标注的训练图形输入模型;(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型;(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测,包含以下子步骤:(2.1)输入待检测图像,使用训练后的自然场景文本检测模型对给定图像进行文本检测,输出一系列文本提议检测框的得分和坐标;(2.2)对得到的文本提议进行非极大值抑制,以去除部分冗余检测框;(2.3)使用文本连接器对一系列的文本提议进行连接,生成最终的检测结果。2.根据权利要求1所述的基于深度学习的自然场景文本检测方法,其特征在于,在构建基于神经网络的自然场景文本检测模型中,特征金字塔网络(FeaturePyramidNetworks,FPN)只使用了从P2到P5的层级。3.根据权利要求1所述的基于深度学习的自然场景文本检测方法,其特征在于,在构建基于神经网络的自然场景文本检测模型中,特征金字塔网络(FeaturePyramidNetworks,FPN)使用了ResNet-101作为骨架网络。4.根据权利要求...

【专利技术属性】
技术研发人员:刘发贵陈成
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1