自然场景图像中曲线文字的检测识别方法技术

技术编号：22220280 阅读：40 留言：0更新日期：2019-09-30 01:59

本发明专利技术公开了一种自然场景图像中曲线文字的检测识别方法，本方法用于解决曲线文字识别中边界模糊且与背景对比度低的问题，提高曲线文字检测精度。主要步骤包括1)对基于Mask RCNN网络的曲线文字检测网络进行训练，利用训练好的曲线文字检测网络对自然场景图像进行检测，检测出图像中的文字区域；2)利用矫正网络将文字区域的曲线文字矫正成水平文字，输出矫正后图像；3)对曲线文字识别网络进行训练，利用训练好的曲线文字识别网络提取矫正后图像的卷积特征，对卷积特征进行解码，识别出文字。

Detection and Recognition of Curve Characters in Natural Scene Images

全部详细技术资料下载

【技术实现步骤摘要】
自然场景图像中曲线文字的检测识别方法
本专利技术属于计算机视觉
，具体涉及一种能够在自然场景下检测和识别曲线文字的方法。
技术介绍
自然场景中文字信息无处不在，近年来随着摄影器材的普及，网络空间中图像和视频数据量急剧上升。与此同时，自动驾驶、机器人等人工智能产品的迅速发展，使得文字检测和识别技术的应用也越来越广泛。利用计算机视觉技术，自动分析解释图像中的信息，并且进一步理解图像中的语义内容就显得尤为重要。不同于传统的文字检测和识别方法主要面向于高质量的图片，自然场景下的文字检测和识别受到环境的影响，有图像背景复杂、分辨率低下、字体多样、分布随意等特点。因此，传统的文字检测识别方法在自然场景下不具备适用性。近年来，得益于机器学习算法的发展，图像文字检测识别技术取得较大进步，最近的文字检测识别算法较多依赖于深度学习。文字检测即定位出图片中文字所在的具体区域，文字识别即识别出所检测区域的具体文字信息内容。目前基于深度学习的文字检测和识别方法从网络结构上可以分为两类，第一种是检测网络加识别网络的方法，先利用文字检测网络检测文字的位置，输出文字区域信息，再将文字区域输入到文字识别网络进行识别，最终输出文字图片坐标定位和文字内容识别结果。第二种是端到端的识别方法，同时进行文字检测和识别，输出文本位置信息和文本内容信息。从文字方向上可以分为三类：水平文字、倾斜文字、曲线文字。关于水平文字检测和识别技术的研究，是目前文字识别应用中最成功的。水平文字检测即输出矩形文字框，四个自由度。其中，CTPN文字检测网络把文本行看做是由细条状区域组成的，通过FasterR-CNN...

【技术保护点】
1.一种自然场景图像中曲线文字的检测识别方法，包括以下步骤：1)对基于Mask RCNN网络的曲线文字检测网络进行训练，利用训练好的曲线文字检测网络对自然场景图像进行检测，检测步骤包括：提取图像的文字特征，并对文字特征进行增强；根据增强的文字特征生成候选框，通过特征分配将生成的候选框与增强的文字特征进行对应，并投影候选框的特征到不同的尺寸固定的特征；对不同的尺寸固定的特征进行候选框微调，检测出图像中的文字区域；2)利用矫正网络将文字区域的曲线文字矫正成水平文字，输出矫正后图像；3)对曲线文字识别网络进行训练，利用训练好的曲线文字识别网络提取矫正后图像的卷积特征，对卷积特征进行解码，识别出文字。

【技术特征摘要】
1.一种自然场景图像中曲线文字的检测识别方法，包括以下步骤：1)对基于MaskRCNN网络的曲线文字检测网络进行训练，利用训练好的曲线文字检测网络对自然场景图像进行检测，检测步骤包括：提取图像的文字特征，并对文字特征进行增强；根据增强的文字特征生成候选框，通过特征分配将生成的候选框与增强的文字特征进行对应，并投影候选框的特征到不同的尺寸固定的特征；对不同的尺寸固定的特征进行候选框微调，检测出图像中的文字区域；2)利用矫正网络将文字区域的曲线文字矫正成水平文字，输出矫正后图像；3)对曲线文字识别网络进行训练，利用训练好的曲线文字识别网络提取矫正后图像的卷积特征，对卷积特征进行解码，识别出文字。2.如权利要求1所述的方法，其特征在于，对曲线文字检测网络进行训练的数据集包括自然场景曲线文字图片和对应的文字区域掩码图片；对曲线文字识别网络进行训练的数据集包括曲线文字图片和对应的文字信息。3.如权利要求1所述的方法，其特征在于，曲线文字检测网络以ResNet-50作为主干网络，通过ResNet-50提取文字特征；利用RPN网络产生候选框。4.如权利要求1所述的方法，其特征在于，曲线文字检测网络还包括一用于增强文字特征的TFE模块，该TFE模块包括多个过滤器和单元，每个过滤器采用1*1卷积核，每个单元含有3*3卷积核、1*7卷积核和7*1卷积核；每个单元根据公式Fm＝ψ(Sm,Fm+1；θm)输出增强的文字特征，其中Sm表示第m级旁路通过滤波器后输出的特征图；Fm+1表示输出特征；ψ(·)表示增强文字特征的函数，θm表示在第m个单元中学习到的参数；在文字特征增强子模块中，一个单元的输入被分配给旁路以输出深层特征，其余单元利用该深层特征融合浅层特征，得到融合后的特征。5.如权利要求1所述的方法，其特征在于，候选框对应特征分配公式如下：其中,Ι(·)表示指示函数，Fi是第i级候选框对应的特征，Ai表示第i级候选框的候选区域面积大小，表示第m级的候选区域面积上界。6.如权利要求1所述的方法，其特征在于，利用金字塔ROI池化注意...

【专利技术属性】
技术研发人员：操晓春，赵汉玥，代朋纹，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人