自然场景图像中曲线文字的检测识别方法技术

技术编号:22220280 阅读:40 留言:0更新日期:2019-09-30 01:59
本发明专利技术公开了一种自然场景图像中曲线文字的检测识别方法,本方法用于解决曲线文字识别中边界模糊且与背景对比度低的问题,提高曲线文字检测精度。主要步骤包括1)对基于Mask RCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测出图像中的文字区域;2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。

Detection and Recognition of Curve Characters in Natural Scene Images

【技术实现步骤摘要】
自然场景图像中曲线文字的检测识别方法
本专利技术属于计算机视觉
,具体涉及一种能够在自然场景下检测和识别曲线文字的方法。
技术介绍
自然场景中文字信息无处不在,近年来随着摄影器材的普及,网络空间中图像和视频数据量急剧上升。与此同时,自动驾驶、机器人等人工智能产品的迅速发展,使得文字检测和识别技术的应用也越来越广泛。利用计算机视觉技术,自动分析解释图像中的信息,并且进一步理解图像中的语义内容就显得尤为重要。不同于传统的文字检测和识别方法主要面向于高质量的图片,自然场景下的文字检测和识别受到环境的影响,有图像背景复杂、分辨率低下、字体多样、分布随意等特点。因此,传统的文字检测识别方法在自然场景下不具备适用性。近年来,得益于机器学习算法的发展,图像文字检测识别技术取得较大进步,最近的文字检测识别算法较多依赖于深度学习。文字检测即定位出图片中文字所在的具体区域,文字识别即识别出所检测区域的具体文字信息内容。目前基于深度学习的文字检测和识别方法从网络结构上可以分为两类,第一种是检测网络加识别网络的方法,先利用文字检测网络检测文字的位置,输出文字区域信息,再将文字区域输入到文字识别网络进行识别,最终输出文字图片坐标定位和文字内容识别结果。第二种是端到端的识别方法,同时进行文字检测和识别,输出文本位置信息和文本内容信息。从文字方向上可以分为三类:水平文字、倾斜文字、曲线文字。关于水平文字检测和识别技术的研究,是目前文字识别应用中最成功的。水平文字检测即输出矩形文字框,四个自由度。其中,CTPN文字检测网络把文本行看做是由细条状区域组成的,通过FasterR-CNN中的RPN检测细条状区域,并把卷积神经网络(CNN)与循环神经网络(RNN)结合起来,实现了准确快速定位。而TextBoxes文字检测器在SSD框架基础上改进以适应文本行窄长等特征。水平文字识别应用广泛的有CRNN识别网络,该网络由CNN+BiLSTM+CTC构成,实现了端到端训练。与水平文字相比,倾斜文字检测识别与主要体现在文字检测方面,即输出平行四边形文字框,八个自由度。EAST是一个简单高效的文字检测网络,利用了Inception的思想采用PVANet模型提取特征,相比于CTPN减少了很多中间过程,支持多方向的文字定位。TextBoxes++是在TextBoxes上进行改进的多方向文本检测网络。当然,曲线文字检测识别是难度最高的,目前并没有取得很好的效果及相关应用。其难点主要在于文字分布和方向的无规则性,曲线文字检测即输出凸多边形文字框,多个自由度。曲线文字边界模糊和文字与背景对比度较低,导致直接应用目标示例分割方法进行曲线文字检测效果并不理想。曲线文字识别则是考虑先通过矫正网络将文字调整成水平文字,再进行识别。综合曲线文字检测识别技术中的难点问题,设计合理的特征提取方法,改进网络结构,对于提高检测和识别曲线文字的精度至关重要。
技术实现思路
本专利技术的目的是提出一种自然场景图像中曲线文字的检测识别方法,能够应对自然场景下文字信息分布的无规则性和无方向性,以及自然场景的环境多变性,对自然场景中曲线文字信息进行有效地检测识别。为实现上述目的,本专利技术采用的技术方案如下:一种自然场景图像中曲线文字的检测识别方法,包括以下步骤:1)对基于MaskRCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测步骤包括:提取图像的文字特征,并对文字特征进行增强;根据增强的文字特征生成候选框,通过特征分配将生成的候选框与增强的文字特征进行对应,并投影候选框的特征到不同的尺寸固定的特征;对不同的尺寸固定的特征进行候选框微调,检测出图像中的文字区域;2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。进一步地,对曲线文字检测网络进行训练的数据集包括自然场景曲线文字图片和对应的文字区域掩码图片;对曲线文字识别网络进行训练的数据集包括曲线文字图片和对应的文字信息。进一步地,曲线文字检测网络以ResNet-50作为主干网络,通过ResNet-50提取文字特征。进一步地,曲线文字检测网络还包括一用于增强文字特征的TFE模块,该TFE模块包括多个过滤器和单元,每个过滤器采用1*1卷积核,每个单元含有3*3卷积核、1*7卷积核和7*1卷积核;每个单元根据公式Fm=ψ(Sm,Fm+1;θm)输出增强的文字特征,其中Sm表示第m级旁路通过滤波器后输出的特征图;Fm+1表示输出特征;ψ(·)表示增强文字特征的函数,θm表示在第m个单元中学习到的参数;在文字特征增强子模块中,一个单元的输入被分配给旁路以输出深层特征,其余单元利用该深层特征融合浅层特征,得到融合后的特征。进一步地,利用RPN网络产生候选框。进一步地,候选框对应特征分配公式如下:其中,Ι(·)表示指示函数,Fi是第i级候选框对应的特征,Ai表示第i级候选框的候选区域面积大小,表示第m级的候选区域面积上界。进一步地,利用金字塔ROI池化注意力子模块投影候选框的特征到不同的尺寸固定的特征,公式如下:其中,Fi是第i级候选框对应的特征,ρn表示池化窗口的大小,N表示池化窗口的数量。进一步地,微调的方法为:将不同的尺寸固定的特征输入到文本框微调子模块进行分类和回归,计算分类损失和回归损失;再输入到文本框切割子模块生成图像掩码,切割出任意形状的文字区域,计算分割损失。进一步地,文本框切割子模块包括若干卷积层、ReLU激活层以及一个1*1卷积核的卷积层;特征输入到文本框切割子模块后,经过若干卷积层和ReLU激活层之后,输入到一个1*1卷积核的卷积层用于生产文字/非文字的图像掩码;掩码生成公式为:其中Ω(·)表示向量化操作,将一个张量转换成一个向量,Ω-1是Ω(·)的反向运算,Φ(·)是非线性函数由两个全连接层和非线性ReLU操作组成,Θ表示全连接层学习到的参数。进一步地,利用后处理方法去除低置信分数的文字区域掩码,生成最终检测的文字区域。进一步地,矫正网络基于空间变换网络,通过其定位网络预测一组定位需要的控制点,从控制点计算TPS变换并将其传递给网格生成器和采样器,生成矫正后图像;该定位网络存送卷积网络,包括6个卷积层、5个max-pooling层和2个全连接层。进一步地,曲线文字识别网络利用卷积网络提取卷积特征,将特征输入到双向LSTM的编码器,再通过含注意力机制的LSTMs解码器进行解码,输出识别文字结果。首次将MaskRCNN应用于曲线文字检测,能有效解决曲线文字边界模糊且与背景对比度低的问题。该方法设计实现曲线文字检测网络和曲线文字识别网络,曲线文字检测网络是在MaskRCNN网络基础上增加了文字特征增强子模块,通过多尺度特征融合技术增强网络的表征能力。在ROI操作中加入注意力(attention)机制,设计金字塔ROI池化注意力子模块,将候选框与特征相对应。设计基于内容的文本框分割子模块,将候选框的全局信息编码,利用全局信息检测文本边界。曲线文字识别网络ASTER先通过STN矫正网络将曲线文字区域矫正成水平文字,再通过识别网络,使用sequence-t本文档来自技高网
...

【技术保护点】
1.一种自然场景图像中曲线文字的检测识别方法,包括以下步骤:1)对基于Mask RCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测步骤包括:提取图像的文字特征,并对文字特征进行增强;根据增强的文字特征生成候选框,通过特征分配将生成的候选框与增强的文字特征进行对应,并投影候选框的特征到不同的尺寸固定的特征;对不同的尺寸固定的特征进行候选框微调,检测出图像中的文字区域;2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。

【技术特征摘要】
1.一种自然场景图像中曲线文字的检测识别方法,包括以下步骤:1)对基于MaskRCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测步骤包括:提取图像的文字特征,并对文字特征进行增强;根据增强的文字特征生成候选框,通过特征分配将生成的候选框与增强的文字特征进行对应,并投影候选框的特征到不同的尺寸固定的特征;对不同的尺寸固定的特征进行候选框微调,检测出图像中的文字区域;2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。2.如权利要求1所述的方法,其特征在于,对曲线文字检测网络进行训练的数据集包括自然场景曲线文字图片和对应的文字区域掩码图片;对曲线文字识别网络进行训练的数据集包括曲线文字图片和对应的文字信息。3.如权利要求1所述的方法,其特征在于,曲线文字检测网络以ResNet-50作为主干网络,通过ResNet-50提取文字特征;利用RPN网络产生候选框。4.如权利要求1所述的方法,其特征在于,曲线文字检测网络还包括一用于增强文字特征的TFE模块,该TFE模块包括多个过滤器和单元,每个过滤器采用1*1卷积核,每个单元含有3*3卷积核、1*7卷积核和7*1卷积核;每个单元根据公式Fm=ψ(Sm,Fm+1;θm)输出增强的文字特征,其中Sm表示第m级旁路通过滤波器后输出的特征图;Fm+1表示输出特征;ψ(·)表示增强文字特征的函数,θm表示在第m个单元中学习到的参数;在文字特征增强子模块中,一个单元的输入被分配给旁路以输出深层特征,其余单元利用该深层特征融合浅层特征,得到融合后的特征。5.如权利要求1所述的方法,其特征在于,候选框对应特征分配公式如下:其中,Ι(·)表示指示函数,Fi是第i级候选框对应的特征,Ai表示第i级候选框的候选区域面积大小,表示第m级的候选区域面积上界。6.如权利要求1所述的方法,其特征在于,利用金字塔ROI池化注意...

【专利技术属性】
技术研发人员:操晓春赵汉玥代朋纹
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1