一种基于区域剪裁和方向检测的场景文本识别方法技术

技术编号:35413020 阅读:45 留言:0更新日期:2022-11-03 11:10
本文设计了一种基于区域剪裁和方向检测的端到端场景文本识别方法,用于解决分割图中的文本相互粘连,矫正过于繁琐,传统文本识别网络时感受野小和识别率低等各种问题。本文的网络可以分为文本检测模块和文本识别模块。为了达到理想效果,对场景文本图像数据集进行数据清洗,并制作相应的标签,用于网络的训练。文本检测是使用深度残差网络和特征金字塔网络,将每层上采样的特征进行融合,来检测文本位置和方向。实现了多尺度特征融合,有利于正确的预测文本信息。文本识别使用拥有全局的感受野的Transformer作为主干网络,因此可以充分的对文本进行特征的捕获。在训练过程中引入联合损失函数,文本检测和文本识别联合训练,并都使用交叉熵损失进行训练。使用交叉熵损失进行训练。使用交叉熵损失进行训练。

【技术实现步骤摘要】
一种基于区域剪裁和方向检测的场景文本识别方法


[0001]本专利技术涉及场景文本检测和识别,具体设计了一种基于区域剪裁和方向检测的场景文本识别方法。

技术介绍

[0002]场景文本识别指在自然场景的图像中识别出文本信息,由于其巨大的实用价值,被广泛的应用在程序中,如身份验证、数字金融系统和车辆车牌识别等,同时吸引了来自工业和学术界极大的兴趣。然而,由于自然场景图像在大小、字体、背景和布局上的多样化,场景文本识别仍然是一个非常具有挑战性的问题。
[0003]场景文本识别通常包括三个模块:文本检测、文本矫正和文本识别。文本检测模块,其目的是检测文本的存在和位置。通常使用基于像素分割的方法,借鉴语义分割的思想,将文本检测问题视为对文本和背景的分类问题,因而可以不受文本形状的限制,对各种形状的文本都能取得较好的效果。然而,当出现多个文本紧密相邻时,该方法会将多个文本检测成单个文本,只给出单个分割区域,从而出现多个文本共享单个分割区域的情况。文本矫正模块,其目的是在识别前将不规则文本图像矫正为规则文本图像。通常需要单独设计算法或模型,过程繁琐耗时,与另外两个模块没有关联。文本识别模块,其目的是将矫正后的文本图像上的文字内容,识别成为可编辑的文本。通常使用卷积神经网络(Convolutional NeuralNetwork,CNN),因而需要复杂的前后处理,才能获得文本信息。

技术实现思路

[0004]本文设计了一种基于区域剪裁和方向检测的端到端场景文本识别方法,用于解决传统检测网络中分割图中的文本相互粘连,矫正过于繁琐,传统的神经网络做识别网络时感受野小和识别率低等各种问题。本文的网络可以分为文本检测模块和文本识别模块。
[0005]为了达到理想的检测和识别效果,首先将场景文本图像数据集进行数据清洗,并制作文本作分割图和文本方向图的标签,用于训练网络对场景文本的检测和识别能力。文本分割图中使用Vatti区域剪裁算法,来缩减文本在分割图中的面积,来达到分割相邻文本的目的。文本方向图是用线段在图像中显示文本延伸方向和倾斜程度,简化文本矫正操作,提高效率
[0006]文本检测模块是使用深度残差网络和特征金字塔网络,并将每层上采样的特征进行融合,用来预测文本作分割图和文本方向图。这样的网络结构能够在增加较少计算量的前提下,实现多尺度特征融合,充分获取图像中浅层和深层的空间和语义信息,有利于正确的预测文本的位置信息和方向信息。然后,利用文本分割图提取图像中的文本,并依照文本方向图所显示的倾斜角度,对提取后的文本进行旋转矫正。
[0007]文本识别模块使用Transformer作为主干网络。相比于卷积神经网络,Transformer不需要复杂的前后处理,并拥有全局的感受野,充分的利用文本信息进行特征的捕获,并减少由于长期依赖而导致的性能下降。
[0008]在训练过程中引入联合损失函数,文本检测模块和文本识别模块联合训练,并都使用交叉熵损失进行训练。交叉熵损失能够计算模型预测输出与期望输出之间的差异,使预测输出尽可能靠近期望输出。
附图说明
[0009]图1是本专利技术所述的一种基于区域剪裁和方向检测的场景文本识别方法,图2是本方法在数据集IC15上与主流方法的结果对比。
具体实施方式
[0010]请参阅图1所示:
[0011]1、一种基于区域剪裁和方向检测的端到端场景文本识别方法,用于解决场景文本图像识别问题,为了达到理想的分类效果,通过使用深度残差网络和特征金字塔网络,并进行多尺度特征融合,来检测文本位置和方向,另外,通过Transformer充分的对文本进行特征的捕获,提升文本识别率。所述方法包括以下步骤:
[0012]步骤一:标签制作:将场景文本图像进行数据清洗,并制作文本作分割图和文本方向图的标签;
[0013]步骤二:文本检测:将图像送入本文检测模块中,通过融合多层特征,来预测文本分割图和文本方向图;
[0014]步骤三:文本矫正:通过文本分割图提取文本,并依据文本方向图对文本进行矫正;
[0015]步骤四:文本识别:通过文本识别模块对矫正后的文本进行识别,并通过词典进行校正。
[0016]2、根据权利要求1所述的一种基于区域剪裁和方向检测的场景文本识别方法,其特征在于,步骤一中所述标签制作方法包括以下步骤:
[0017]步骤一:通过数据集中提供的文本位置信息,制作文本分割图,并使用Vatti算法,缩小文本分割区域;
[0018]步骤二:然后,同样利用数据集中提供的文本位置信息,获取文本倾斜程度,在文本位置上使用线段表示文本倾斜角度,以此制作文本方向图。
[0019]3、根据权利要求1所述的一种基于区域剪裁和方向检测的场景文本识别方法,其特征在于,步骤二所述的文本检测包括以下步骤:
[0020]步骤一:文本检测模块分为下采样、上采样和特征融合图3个部分。下采样提取图像特征,每一层能够提取到不同尺度的特征,并且每一层的空间分辨率是前一层的一半。随着下采样过程的深入,特征图中的高级语义信息逐渐明显,同时将每一层获取的特征送入对应层次的上采样中。在上采样过程中,会融合下采样中对应层次的特征,每一次上采样会将下采样中对应层次的特征和前一层的特征相加,公式如下:
[0021]P
l
=g3×3(g1×1(X
l
)+F
up
(P
l+1
))
ꢀꢀꢀꢀ
(1)
[0022]其中,x1为下采样过程中第l层的输出特征,g
k
×
k
表示k
×
k滤波器的卷积层,F
up
表示上采样操作;
[0023]步骤二:特征融合图是将上采样过程中获得四个特征再进行一次融合,获取不同
感受野的特征。特征融合图的大小为其中H和W分别为输入图像的高和宽,特征融合图的公式如下:
[0024]F=g1×1(P1)+F
up
(P2)+F
up
(P3)+F
up
(P4)
ꢀꢀ
(2)
[0025]其中,P1,P2,P3,P4为下采样过程四层的输出特征。
[0026]将特征融合图经过两次上采样后,预测出文本分割图和文本方向图。文本分割图为灰度图,其大小为1
×
H
×
W,白色区域代表文本在图像中的位置;文本方向图大小为3
×
H
×
W,用有色线段表示文本延伸的方向。
[0027]4、根据权利要求1所述的一种基于区域剪裁和方向检测的场景文本识别方法,其特征在于,步骤三所述的文本矫正包括以下步骤:
[0028]步骤一:对文本分割图进行边缘检测,逐一获取分割区域,并对每个分割区域进行反剪裁,将分割区域放大足以覆盖整个文本,将反剪裁后的区域图与原图点乘,逐一获取文本;
[0029]步骤二:同样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于区域剪裁和方向检测的端到端场景文本识别方法,用于解决场景文本图像识别问题,为了达到理想的分类效果,通过使用深度残差网络和特征金字塔网络,并进行多尺度特征融合,来检测文本位置和方向,另外,通过Transformer充分的对文本进行特征的捕获,提升文本识别率。所述方法包括以下步骤:步骤一:标签制作:将场景文本图像进行数据清洗,并制作文本作分割图和文本方向图的标签;步骤二:文本检测:将图像送入本文检测模块中,通过融合多层特征,来预测文本分割图和文本方向图;步骤三:文本矫正:通过文本分割图提取文本,并依据文本方向图对文本进行矫正;步骤四:文本识别:通过文本识别模块对矫正后的文本进行识别,并通过词典进行校正。2.根据权利要求1所述的一种基于区域剪裁和方向检测的场景文本识别方法,其特征在于,步骤一中所述标签制作方法包括以下步骤:步骤一:通过数据集中提供的文本位置信息,制作文本分割图,并使用Vatti算法,缩小文本分割区域;步骤二:然后,同样利用数据集中提供的文本位置信息,获取文本倾斜程度,在文本位置上使用线段表示文本倾斜角度,以此制作文本方向图。3.根据权利要求1所述的一种基于区域剪裁和方向检测的场景文本识别方法,其特征在于,步骤二所述的文本检测包括以下步骤:步骤一:文本检测模块分为下采样、上采样和特征融合图3个部分。下采样提取图像特征,每一层能够提取到不同尺度的特征,并且每一层的空间分辨率是前一层的一半。随着下采样过程的深入,特征图中的高级语义信息逐渐明显,同时将每一层获取的特征送入对应层次的上采样中。在上采样过程中,会融合下采样中对应层次的特征,每一次上采样会将下采样中对应层次的特征和前一层的特征相加,公式如下:P
l
=g3×3(g1×1(X
l
)+F
up
(P
l+1
))
ꢀꢀꢀꢀ
(1)其中,x1为下采样过程中第l层的输出特征,g
k
×
k
表示k
×
k滤波器的卷积层,F
up
表示上采样操作;步骤二:特征融合图是将上采样过程中获得四个特征再进行一次融合,获取不同感受野的特征。特征融合图的大小为其中H和W分别为输入图像的高和宽,特征融合图的公式如下:F=g1×1(P1)+F
up
(P2)+F
up
(P3)+F
up
(P4)
ꢀꢀꢀꢀ
(2)其中,P1,P2,P3,P4为下采样过程四层的输出特征。将特征融合图经过...

【专利技术属性】
技术研发人员:吴梦麟郭沛程勇
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1