一种基于深度学习的自然场景文本检测方法技术

技术编号：21892798 阅读：21 留言：0更新日期：2019-08-17 14:51

本发明专利技术公开了一种基于深度学习的自然场景文本检测方法。该方法使用CNN网络提取文本的多尺度特征，然后使用RNN编码这些特征以充分利用文本的上下文特性；接着，将特征图输入ROI池化层并输出一系列的文本提议。在经过非极大值抑制之后，最后通过一个文本连接器将生成的文本提议连接起来，从而灵活高效地实现多尺度、多方向的文本检测。本发明专利技术提升了多方向、变尺度条件下自然场景文本检测的准确率和召回率。

A Natural Scene Text Detection Method Based on Deep Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的自然场景文本检测方法
本专利技术属于图像处理
，具体涉及一种基于深度学习的自然场景文本检测方法。
技术介绍
场景文本检测是文本识别的重要前提，常被应用在图像检索、机器翻译、自动驾驶等领域。但是，文本检测在复杂背景、多尺度、多语言、光照不均匀、模糊等情况下的检测仍然存在着诸多困难。自然场景文本的多样性与多变性：相比与文档中的文本，自然场景的文本可能是多尺度、多语言的，形状、方向、比例、颜色可能各不相同，这些变化都给文本的检测带来了诸多挑战。复杂背景：场景文本可能在任意的背景中出现，包括信号标示、砖块或是草丛、栅栏，这些背景可能具有和文本非常相似的特征，可能成为噪声影响文本的判断。同时，还有异物的遮挡造成的文本的缺失，导致潜在的检测错误。参差不齐的成像质量：由于不可控的收集手段，无法保证成像的质量。用于检测的图像可能由于不同的拍摄角度或是拍摄距离造成畸变、虚焦，或是由于拍摄时光照的不同形成噪点、阴影。针对自然场景文本检测问题，可将检测方法分为两类，一类是传统的检测方法，另一类是基于深度学习的检测方法。传统的方法有基于纹理的方法，如使用局部强度、滤波器响应、小波系数等；有基于区域的方法，如笔画宽度变换(StrokeWidthTransform，SWT)、最大极值稳定区域(MaximallyStableExtremalRegions，MSER)、笔画特征变换(StrokeFeatureTransform，SFT)等。近年来，随着深度神经网络的发展，深度学习在计算机视觉领域表现出越来越大的优势。目前，最流行的还是基于卷积神经网络(Convol...

【技术保护点】
1.一种基于深度学习的自然场景文本检测方法，其特征在于包括以下步骤：(1)构建并训练基于神经网络的自然场景文本检测模型，包括：(1.1)构建基于特征金字塔网络(Feature Pyramid Networks，FPN)的特征提取器；(1.2)使用循环神经网络(Recurrent Neural Network，RNN)对特征提取器提取到的特征进行编码；(1.3)使用ROI池化层进一步提高检测的精度；(1.4)最后使用全连接层进行检测框的分类和回归，形成文本检测模型；(1.5)将经过标注的训练图形输入模型；(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型；(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测，包含以下子步骤：(2.1)输入待检测图像，使用训练后的自然场景文本检测模型对给定图像进行文本检测，输出一系列文本提议检测框的得分和坐标；(2.2)对得到的文本提议进行非极大值抑制，以去除部分冗余检测框；(2.3)使用文本连接器对一系列的文本提议进行连接，生成最终的检测结果。

【技术特征摘要】
1.一种基于深度学习的自然场景文本检测方法，其特征在于包括以下步骤：(1)构建并训练基于神经网络的自然场景文本检测模型，包括：(1.1)构建基于特征金字塔网络(FeaturePyramidNetworks，FPN)的特征提取器；(1.2)使用循环神经网络(RecurrentNeuralNetwork，RNN)对特征提取器提取到的特征进行编码；(1.3)使用ROI池化层进一步提高检测的精度；(1.4)最后使用全连接层进行检测框的分类和回归，形成文本检测模型；(1.5)将经过标注的训练图形输入模型；(1.6)使用包含分类损失和回归损失的多任务损失函数计算损失值以训练模型；(2)使用训练完成的所述自然场景文本检测模型对给定图像中的自然场景文本进行检测，包含以下子步骤：(2.1)输入待检测图像，使用训练后的自然场景文本检测模型对给定图像进行文本检测，输出一系列文本提议检测框的得分和坐标；(2.2)对得到的文本提议进行非极大值抑制，以去除部分冗余检测框；(2.3)使用文本连接器对一系列的文本提议进行连接，生成最终的检测结果。2.根据权利要求1所述的基于深度学习的自然场景文本检测方法，其特征在于，在构建基于神经网络的自然场景文本检测模型中，特征金字塔网络(FeaturePyramidNetworks，FPN)只使用了从P2到P5的层级。3.根据权利要求1所述的基于深度学习的自然场景文本检测方法，其特征在于，在构建基于神经网络的自然场景文本检测模型中，特征金字塔网络(FeaturePyramidNetworks，FPN)使用了ResNet-101作为骨架网络。4.根据权利要求...

【专利技术属性】
技术研发人员：刘发贵，陈成，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人