一种基于RCRNN神经网络的自然场景文字识别方法技术

技术编号:21572472 阅读:24 留言:0更新日期:2019-07-10 15:39
本发明专利技术涉及一种基于RCRNN神经网络的自然场景文字识别方法,包括步骤:1、获取包含文本的图片(w,h,n)及标签,将图片转化为灰度图;2、判断图片的纵横比是否大于1,是则执行步骤4,否则执行步骤3;3、将图片大小归一为(100,32,1)后执行步骤6;4、计算图片矩阵的行列长度,将图片大小变为(h*r,32,1);5、将步骤4的图片中除(h*r,32,1)的部分外全采用数值为0的像素点填充,进入下一步;6、将归一化完成的图片输入RCRNN神经网络进行训练;7)训练完成后采用CTC解码器计算文本标签序列;8)根据字典将标签序列反转码得到文本,获取文字识别结果。与现有技术相比,本发明专利技术具有高识别率、简化运算、适用性高等优点。

A Natural Scene Character Recognition Method Based on RCRNN Neural Network

【技术实现步骤摘要】
一种基于RCRNN神经网络的自然场景文字识别方法
本专利技术涉及深度学习领域和文字识别领域,尤其是涉及一种基于RCRNN神经网络的自然场景文字识别方法。
技术介绍
近年来深度学习领域正在不断飞速发展,并在图像分类、情感分析、语音识别、文字识别等多个领域取得了优异的成果。常规的文字识别技术在提取文本框后通常先对文本区域做背景去除、行列切割,再人工提取文字笔画、像素等特征,最后采用像素对比方法或SVM、随机森林等机器学习进行单字识别。传统的OCR识别程序和方法无法有效识别粘连文字、变形文字、背景复杂的文字等,并且单字识别效率低下,且需要繁琐的图像预处理过程。而流行的基于深度学习的文字识别程序又需要巨量的运算资源没有针对性的进行过运算优化,适用性差。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于RCRNN神经网络的自然场景文字识别方法。本专利技术的目的可以通过以下技术方案来实现:一种基于RCRNN神经网络的自然场景文字识别方法,包括下列步骤:S1:获取包含文本的图片(w,h,n),将图片转化为灰度图。S2:判断转为灰度图的图片的纵横比是否大于1,若是,执行步骤S4,若不是,则执行步骤S3。S3:将图片大小归一为(100,32,1)后执行步骤S6。S4:对图片进行处理,计算图片矩阵的行列长度r=32/w,使用双线性插值法将图片大小变更为(h*r,32,1)。S5:将步骤S4的图片中除(h*r,32,1)的部分外全部采用数值为0的像素点填充,完成归一化,执行步骤S6。S6:将图片分为训练样本和测试样本两部分,并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签。S7:将步骤S6中处理过的训练样本的图片与标签输入RCRNN神经网络中进行数据训练,训练完成后获取识别模型。RCRNN(ResidualConvolutionRecurrentNeuralNetwork,残差卷积循环神经网络)是一种由残差神经网络与双向LSTM循环神经网络所构成的新型神经网络,包括用以提取高维特征的残差神经网络及用以将提取到的高维特征继续通过卷积来提取特征和长期信息的双向LSTM循环神经网络。其中,残差神经网络具有倒置残差结构,倒置残差结构为宽卷积、深度可分离卷积、逐点卷积及旁路连接形成的轻量化结构,宽卷积、深度可分离卷积、逐点卷积依次排布。结构旁路的存在用于增加信息流通的通道;宽卷积的使用用于增加图片的通道数,并将特征映射到高维;深度可分离卷积和逐点卷积的使用用于减少运算资源的使用,加快运算效率。深度可分离卷积采用单通道卷积核分为与每个通道的数据做卷积来获取各个通道的特征图;得到特征图后,再次使用逐点卷积分别将这每个单通道特征图融合。LSTM循环神经网络将倒置残差结构与最大池化层、普通卷积、双向长短期循环网络(双向LSTM)联合使用。由于图片中的文字区域的像素值通常与背景区域的像素值差别较大,因此LSTM循环神经网络通过添加使用最大池化层,并使用批归一化层来确保权重在传递过程中分布不会偏差太大,避免梯度消失问题的产生。轻量化层使用的目的在于提取文本特征的同时加快运算速度。最后的双向LSTM层的使用用于分析信息的长期依赖性,避免在时间长度上早期信息的丢失。将处理过的训练样本的图片与标签输入RCRNN神经网络中进行数据训练的具体内容为:将处理过的训练样本的图片数据在RCRNN神经网络的网络层进行前向传播和反向误差计算来不断训练,训练过程中不断调整各神经元的权值和偏置,直到代价函数达到最小值,训练停止,获取识别模型。优选地,所述的代价函数为联结主义时间分类损失函数,联结主义时间分类损失函数作为代价函数衡量真实结果与预测结果的距离,联结主义时间分类损失函数前的网络用来提取数据的特征。优选地,采用Adma梯度下降算法不断调整各神经元的权值和偏置。S8:模型训练完成后,将测试样本输入步骤S7中的识别模型,获取特征矩阵,将特征矩阵输入CTC解码器中计算所有可能输出的序列概率,将获取的最大概率对应的文本标签序列作为预测数据。预测数据为0,1二值矩阵,矩阵中1的位置为字典中文字的位置。S9:将预测数据根据字典再次反转码得到文本,获取测试样本的文字识别结果。优选地,采用CTC解码器对最终得到的预测数据的特征矩阵进行解码,特征矩阵中1的位置为文字在字典的位置,查找字典后输出具体的文字识别结果。与现有技术相比,本专利技术具有以下优点:1)本专利技术可以实现文本行识别,不需要切割的成单字识别,对粘连、变形、背景复杂的文字也有更好的识别效率;2)本专利技术将残差结构和循环结构做了结合并将其应用到了文字识别领域,并利用深度可分离卷积方法进行特征提取,不需要对文字区域做繁琐的图像处理和人工特征提取,只需将图片灰度归一化,并且将特征提取和识别统一RCRNN框架内,直接做到将提取的文字区域图片进行端到端识别,减少了程序运算所需参数,简化了运算优化,轻量化的网络可用于移动端开发,大大提高了适用性;3)本专利技术将特征提取和识别统一于RCRNN框架内,RCNN部分构建了更深的网络层,可提取高维特征,应用到背景复杂的文本上,BiLSTM可分析文本长期依赖性,提高了文字识别的准确率。附图说明图1为本专利技术中RCRNN神经网络中的倒置残差结构图;图2为RCRNN神经网络总结构与数据训练过程中的特征变化图;图3为本专利技术方法的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。本专利技术涉及一种基于RCRNN神经网络的自然场景文字识别方法,RCRNN(ResidualConvolutionRecurrentNeuralNetwork,残差卷积循环神经网络)包括用以提取高维特征的残差神经网络及用以将提取到的高维特征继续通过卷积来提取特征和长期信息的双向LSTM循环神经网络。如图1所示,倒置残差结构图中旁路的存在增加了信息流通的通道;宽卷积的使用增加了图片的通道数,将特征映射到高维;深度可分离卷积和逐点卷积的使用减少了运算资源的使用,加快了运算效率。深度可分离卷积是使用单通道卷积核分为与每个通道的数据做卷积,得到各个通道的特征图。得到特征图后,再次使用逐点卷积分别将这每个单通道特征图融合。如图2所示,LSTM循环神经网络将倒置残差结构与最大池化层、普通卷积、双向长短期循环网络(双向LSTM)联合使用。因图片中的文字区域的像素值通常与背景区域的像素值差别较大,因此添加使用最大池化层。使用批归一化层来确保权重在传递过程中分布不会偏差太大,避免梯度消失问题产生。轻量化层使用的目的在于提取文本特征的同时,加快运算速度。最后的双向LSTM层的使用可以分析信息的长期依赖性,也就是说避免在时间长度上早期信息的丢失。本专利技术基于该RCRNN神经网络,提供了一种基于RCRNN神经网络的自然场景文字识别方法,该方法的具体实施步骤如下:步骤一、输入包含文本的图片,假设图片的大小为(w,h,n),将图片转为灰度图,图片的大小为(w,h,1);步骤二、判断转为灰度图的图片的纵横比是否大于1,若不是,执行步本文档来自技高网...

【技术保护点】
1.一种基于RCRNN神经网络的自然场景文字识别方法,其特征在于,该方法包括下列步骤:1)获取包含文本的图片(w,h,n),将图片转化为灰度图;2)判断转为灰度图的图片的纵横比是否大于1,若是,执行步骤4),若不是,则执行步骤3);3)将图片大小归一为(100,32,1)后执行步骤6);4)对图片进行处理,计算图片矩阵的行列长度r=32/w,使用双线性插值法将图片大小变更为(h*r,32,1);5)将步骤4)的图片中除(h*r,32,1)的部分外全部采用数值为0的像素点填充,完成归一化,执行步骤6);6)将图片分为训练样本和测试样本两部分,并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签;7)将步骤6)中处理过的训练样本的图片与标签输入RCRNN神经网络中进行数据训练,训练完成后获取识别模型;8)模型训练完成后,将测试样本输入步骤7)中的识别模型,获取特征矩阵,将特征矩阵输入CTC解码器中计算所有可能输出的序列概率,将获取的最大概率对应的文本标签序列作为预测数据;9)将预测数据根据字典再次反转码得到文本,获取测试样本的文字识别结果。

【技术特征摘要】
1.一种基于RCRNN神经网络的自然场景文字识别方法,其特征在于,该方法包括下列步骤:1)获取包含文本的图片(w,h,n),将图片转化为灰度图;2)判断转为灰度图的图片的纵横比是否大于1,若是,执行步骤4),若不是,则执行步骤3);3)将图片大小归一为(100,32,1)后执行步骤6);4)对图片进行处理,计算图片矩阵的行列长度r=32/w,使用双线性插值法将图片大小变更为(h*r,32,1);5)将步骤4)的图片中除(h*r,32,1)的部分外全部采用数值为0的像素点填充,完成归一化,执行步骤6);6)将图片分为训练样本和测试样本两部分,并将训练样本图片对应的文本根据字典转码成二值向量序列作为标签;7)将步骤6)中处理过的训练样本的图片与标签输入RCRNN神经网络中进行数据训练,训练完成后获取识别模型;8)模型训练完成后,将测试样本输入步骤7)中的识别模型,获取特征矩阵,将特征矩阵输入CTC解码器中计算所有可能输出的序列概率,将获取的最大概率对应的文本标签序列作为预测数据;9)将预测数据根据字典再次反转码得到文本,获取测试样本的文字识别结果。2.根据权利要求1所述的一种基于RCRNN神经网络的自然场景文字识别方法,其特征在于,所述的RCRNN神经网络包括用以提取高维特征的残差神经网络及用以将提取到的高维特征继续通过卷积来提取特征和长期信息的双向LSTM循环神经网络,所述的残差神经网络设有倒置残差结构。3.根据权利要求2所述的一种基于RCRNN神经网络的自然场景文字识别方法,其特征在于,所述的倒置残差结构为宽卷积、深度可分离卷积、...

【专利技术属性】
技术研发人员:袁三男沈兆轩
申请(专利权)人:上海电力学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1