一种基于区域剪裁和方向检测的场景文本识别方法技术

技术编号：35413020 阅读：45 留言：0更新日期：2022-11-03 11:10

本文设计了一种基于区域剪裁和方向检测的端到端场景文本识别方法，用于解决分割图中的文本相互粘连，矫正过于繁琐，传统文本识别网络时感受野小和识别率低等各种问题。本文的网络可以分为文本检测模块和文本识别模块。为了达到理想效果，对场景文本图像数据集进行数据清洗，并制作相应的标签，用于网络的训练。文本检测是使用深度残差网络和特征金字塔网络，将每层上采样的特征进行融合，来检测文本位置和方向。实现了多尺度特征融合，有利于正确的预测文本信息。文本识别使用拥有全局的感受野的Transformer作为主干网络，因此可以充分的对文本进行特征的捕获。在训练过程中引入联合损失函数，文本检测和文本识别联合训练，并都使用交叉熵损失进行训练。使用交叉熵损失进行训练。使用交叉熵损失进行训练。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于区域剪裁和方向检测的场景文本识别方法

[0001]本专利技术涉及场景文本检测和识别，具体设计了一种基于区域剪裁和方向检测的场景文本识别方法。

技术介绍

[0002]场景文本识别指在自然场景的图像中识别出文本信息，由于其巨大的实用价值，被广泛的应用在程序中，如身份验证、数字金融系统和车辆车牌识别等，同时吸引了来自工业和学术界极大的兴趣。然而，由于自然场景图像在大小、字体、背景和布局上的多样化，场景文本识别仍然是一个非常具有挑战性的问题。
[0003]场景文本识别通常包括三个模块：文本检测、文本矫正和文本识别。文本检测模块，其目的是检测文本的存在和位置。通常使用基于像素分割的方法，借鉴语义分割的思想，将文本检测问题视为对文本和背景的分类问题，因而可以不受文本形状的限制，对各种形状的文本都能取得较好的效果。然而，当出现多个文本紧密相邻时，该方法会将多个文本检测成单个文本，只给出单个分割区域，从而出现多个文本共享单个分割区域的情况。文本矫正模块，其目的是在识别前将不规则文本图像矫正为规则文本图像。通常需要单独设计算法或模型，过程繁琐耗时，与另外两个模块没有关联。文本识别模块，其目的是将矫正后的文本图像上的文字内容，识别成为可编辑的文本。通常使用卷积神经网络(Convolutional NeuralNetwork，CNN)，因而需要复杂的前后处理，才能获得文本信息。

技术实现思路

[0004]本文设计了一种基于区域剪裁和方向检测的端到端场景文本识别方法，用于解决传统检测网络中分割图中的文本相互粘...

【技术保护点】

【技术特征摘要】
1.一种基于区域剪裁和方向检测的端到端场景文本识别方法，用于解决场景文本图像识别问题，为了达到理想的分类效果，通过使用深度残差网络和特征金字塔网络，并进行多尺度特征融合，来检测文本位置和方向，另外，通过Transformer充分的对文本进行特征的捕获，提升文本识别率。所述方法包括以下步骤：步骤一：标签制作：将场景文本图像进行数据清洗，并制作文本作分割图和文本方向图的标签；步骤二：文本检测：将图像送入本文检测模块中，通过融合多层特征，来预测文本分割图和文本方向图；步骤三：文本矫正：通过文本分割图提取文本，并依据文本方向图对文本进行矫正；步骤四：文本识别：通过文本识别模块对矫正后的文本进行识别，并通过词典进行校正。2.根据权利要求1所述的一种基于区域剪裁和方向检测的场景文本识别方法，其特征在于，步骤一中所述标签制作方法包括以下步骤：步骤一：通过数据集中提供的文本位置信息，制作文本分割图，并使用Vatti算法，缩小文本分割区域；步骤二：然后，同样利用数据集中提供的文本位置信息，获取文本倾斜程度，在文本位置上使用线段表示文本倾斜角度，以此制作文本方向图。3.根据权利要求1所述的一种基于区域剪裁和方向检测的场景文本识别方法，其特征在于，步骤二所述的文本检测包括以下步骤：步骤一：文本检测模块分为下采样、上采样和特征融合图3个部分。下采样提取图像特征，每一层能够提取到不同尺度的特征，并且每一层的空间分辨率是前一层的一半。随着下采样过程的深入，特征图中的高级语义信息逐渐明显，同时将每一层获取的特征送入对应层次的上采样中。在上采样过程中，会融合下采样中对应层次的特征，每一次上采样会将下采样中对应层次的特征和前一层的特征相加，公式如下：P
l
＝g3×3(g1×1(X
l
)+F
up
(P
l+1
))
ꢀꢀꢀꢀ
(1)其中，x1为下采样过程中第l层的输出特征，g
k
×
k
表示k
×
k滤波器的卷积层，F
up
表示上采样操作；步骤二：特征融合图是将上采样过程中获得四个特征再进行一次融合，获取不同感受野的特征。特征融合图的大小为其中H和W分别为输入图像的高和宽，特征融合图的公式如下：F＝g1×1(P1)+F
up
(P2)+F
up
(P3)+F
up
(P4)
ꢀꢀꢀꢀ
(2)其中，P1，P2，P3，P4为下采样过程四层的输出特征。将特征融合图经过...

【专利技术属性】
技术研发人员：吴梦麟，郭沛，程勇，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人