基于二维递归网络的自然场景图像中中文文本识别方法技术

技术编号:18668670 阅读:29 留言:0更新日期:2018-08-14 20:45
本发明专利技术公开了一种基于二维递归网络的自然场景图像中中文文本识别方法,首先获取训练样本集,对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络进行训练;将测试样本输入训练后的深度卷积网络中,获取到测试样本的特征图;然后将测试样本的特征图输入到训练后的编码用二维递归网络中,得到测试样本的编码特征图;再将测试样本的编码特征图输入训练后的解码用二维递归网络中,得到测试样本各帧图像中每个常用汉字的概率结果;最后进行集束搜索处理,最终识别出测试样本中整体中文文本。本发明专利技术方法充分利用了文本图像的空间时间信息与上下文信息,能够避免文本图像预分割问题,提高了识别准确率。

Chinese text recognition method in natural scene based on two dimensional recurrent network

The invention discloses a method for Chinese text recognition in natural scene images based on two-dimensional recursive network. Firstly, the training sample set is acquired, and the neural network composed of a depth convolution network, a two-dimensional recursive network for coding, a two-dimensional recursive network for decoding and a CTC model are trained, and the test sample is input to training. In the depth convolution network after training, the feature map of the test sample is obtained; then the feature map of the test sample is input into the two-dimensional recursive network for coding after training, and the coding feature map of the test sample is obtained; and then the coding feature map of the test sample is input into the decoding after training, and the test sample is obtained by the two-dimensional recursive network. The probability results of each common Chinese character in each frame image are obtained. Finally, the whole Chinese text in the test sample is identified by cluster search. The method makes full use of the spatial and temporal information and the context information of the text image, avoids the problem of pre-segmentation of the text image, and improves the recognition accuracy.

【技术实现步骤摘要】
基于二维递归网络的自然场景图像中中文文本识别方法
本专利技术属于图像文本分析与识别领域,具体涉及一种基于二维递归网络的自然场景图像中中文文本识别方法。
技术介绍
人类大部分的信息都是通过视觉系统获得的,通过视觉系统获取的场景图像除了包含色彩、图案、形状、位置、纹理等丰富的视觉信息,还包含了丰富的文本信息。文本对信息的描述有着准确性、有效性等特点,文本在各种计算机视觉应用中具有十分有用的价值。例如,在图片搜索方面,识别图片中的文字有利于我们更好地对图片分类匹配;在无人驾驶方面,从自然场景中识别出交通指示牌以及其他标志李的文字信息可以辅助驾驶,自然场景下的文字识别在人工智能高速发展的今天,是一个不可或缺的重要发展部分。自然场景中的文本图像与传统文档图像相比具有明显的不同,在文本图像的颜色、亮度、对比度、背景、形状上两者都有很大的差异,图像中可能包括较强的噪声干扰。传统的文本识别方法已经不再适应场景文本的复杂化、多样化。现有技术中自然场景中文本的检测通常需要对图像文本进行预分割处理,图像的分割处理技术直接影响着自然场景中中文文字的检测精度,并且当部分汉字的结构特征被分在不同特征序列时,将很难识别出来。近年来利用深度学习网络来解决这一挑战显得更加方便可行,并取得了显著的效果。在深度学习中,基于卷积和一维递归网络的文本识别方法成为目前的主流。但这类方法还是存在一定的缺陷,如图像中文本的旋转、透射等畸变需要通过大量的样本训练来增强网络的识别能力,一维递归网络识别时需要先将二维的特征图转为一维特征序列。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于二维递归网络的自然场景图像中中文文本识别方法,该方法克服了一维递归网络在文本序列识别中输入序列必须保证严格独立性的假设,避免了采用一维递归网络识别过程中进行的降维操作,在识别过程中充分利用了文本图像的空间时间信息与上下文信息,并且能够避免文本图像预分割问题,大大提高了自然场景图像中中文文本的识别准确率。本专利技术的目的通过下述技术方案实现:一种基于二维递归网络的自然场景图像中中文文本识别方法,步骤如下:步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络和训练后的解码用二维递归网络;步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;步骤S4、将训练后深度卷积神经网络输出的测试样本的特征图输入到训练后的编码用二维递归网络中,通过训练后的编码用二维递归网络得到测试样本的编码特征图;步骤S5、将测试样本的编码特征图输入至训练后的解码用二维递归网络中,通过训练后的解码用二维递归网络得到测试样本各帧图像中每个常用汉字的概率结果;步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字对为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本。优选的,当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的特征图;然后输入到编码用二维递归网络,通过编码用二维递归网络得到训练样本的编码特征图;训练样本的编码特征图输入到解码用二维递归网络中,通过解码用二维递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络、训练后的解码用二维递归网络以及训练后的CTC模型。优选的,所述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:步骤S1-1、将输入的文本图像转换为灰度图像;步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像。更进一步的,所述步骤S2和步骤S3中,深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:步骤S1-3、利用深度卷积神经网络对步骤S1-2获取到的场景文本图像进行高维特征提取,生成多个特征图,然后将多个特征图进行平均,得到平均特征图作为输出。更进一步的,所述步骤S1-2,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,所述某一固定高度为72、64、48、32、24、16或8个像素。优选的,所述深度卷积神经网络的前两层卷积为可变形卷积层;所述可变形卷积层的计算公式如下:其中Y(p0)为当前卷积层输出特征图中中心点p0点的卷积结果;R为感受野的大小和扩张,R内每一个元素表示感受野内其他点相对于感受野中心点p0点坐标的偏移;p0+pn+△pn为Y(p0)所对应的卷积区域,△pn为感受野偏置,△pn内的横纵坐标均属于[-1,1]中的小数,pn∈R,pn指的是特征图中中心点p0点对应感受野内的偏移量,p0+pn为特征图中p0点对应感受野中偏移pn后的点;W(pn)为偏移值pn的权值;I(p0+pn+△pn)为Y(p0)所对应的卷积区域内的特征图。优选的,编码用二维递归网络和解码用二维递归网络均包含2个BiLSTM网络,分别为水平BiLSTM和竖直BiLSTM,每个BiLSTM包含2个LSTM,其中编码用二维递归网络和解码用二维递归网络针对于输入的特征图的操作过程均如下:步骤S2-1、根据窗口设置扫描输入特征图,产生窗口特征图;步骤S2-2、首先采用列规则将窗口特征图转化为序列帧,然后将序列帧送入到水平BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;步骤S2-3、对步骤S2-2中的特征图进行顺时针90度的旋转;步骤S2-4、对于步骤S2-3旋转后的特征图,首先采用列规则将该特征图转化为序列帧,然后将序列帧送入到竖直BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;步骤S2-5、对步骤S2-4中获取到的特征图进行逆时针90度旋转。更进一步的,所述步骤S2-2中,当解码用二维递归网络针对于输入的训练样本的编码特征图以及训练后的解码用二维递归网络针对于输入的测试样本的编码特征图进行解码时,水平BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:步骤S2-2-1、首先在当前时刻第t个时刻计算由上一个时刻第t-1个时刻需要解码的编码序列帧ht-1、当前时刻第t个时刻需要解码的编码序列帧ht以本文档来自技高网...

【技术保护点】
1.一种基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,步骤如下:步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络和训练后的解码用二维递归网络;步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;步骤S4、将训练后深度卷积神经网络输出的测试样本的特征图输入到训练后的编码用二维递归网络中,通过训练后的编码用二维递归网络得到测试样本的编码特征图;步骤S5、将测试样本的编码特征图输入至训练后的解码用二维递归网络中,通过训练后的解码用二维递归网络得到测试样本各帧图像中每个常用汉字的概率结果;步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字对为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本。...

【技术特征摘要】
1.一种基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,步骤如下:步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络和训练后的解码用二维递归网络;步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;步骤S4、将训练后深度卷积神经网络输出的测试样本的特征图输入到训练后的编码用二维递归网络中,通过训练后的编码用二维递归网络得到测试样本的编码特征图;步骤S5、将测试样本的编码特征图输入至训练后的解码用二维递归网络中,通过训练后的解码用二维递归网络得到测试样本各帧图像中每个常用汉字的概率结果;步骤S6、针对于步骤S5获取到的测试样本各帧图像中每个常用汉字对为该帧图像汉字的概率结果进行集束搜索处理,通过集束搜索结果最终识别出测试样本中整体中文文本。2.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,当训练样本输入到神经网络中时,针对训练样本的处理过程如下:首先由神经网络中的深度卷积网络获取到训练样本的特征图;然后输入到编码用二维递归网络,通过编码用二维递归网络得到训练样本的编码特征图;训练样本的编码特征图输入到解码用二维递归网络中,通过解码用二维递归网络得到训练样本各帧图像中每个汉字的概率结果,最后输入到CTC模型中进行处理,神经网络根据CTC模型的输出即训练样本中各汉字的标签针对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型进行训练,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络、训练后的解码用二维递归网络以及训练后的CTC模型。3.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S2和步骤S3中,训练样本的文本图像输入到深度卷积神经网络以及测试样本的文本图像输入到训练后的深度卷积神经网络之前先进行预处理,其中预处理的过程如下:步骤S1-1、将输入的文本图像转换为灰度图像;步骤S1-2、将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像。4.根据权利要求3所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S2和步骤S3中,深度卷积神经网络针对于输入的预处理后的训练样本的文本图像以及训练后的深度卷积神经网络针对于输入的预处理后的测试样本的文本图像的处理过程如下:步骤S1-3、利用深度卷积神经网络对步骤S1-2获取到的场景文本图像进行高维特征提取,生成多个特征图,然后将多个特征图进行平均,得到平均特征图作为输出。5.根据权利要求4所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S1-2,采用双线性插值变换方法将灰度图像变形转换为某一固定高度且转换后长度和高度比值与转换前相同的场景文本图像,所述某一固定高度为72、64、48、32、24、16或8个像素。6.根据权利要求1至4中任一项所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述深度卷积神经网络的前两层卷积为可变形卷积层;所述可变形卷积层的计算公式如下:其中Y(p0)为当前卷积层输出特征图中中心点p0点的卷积结果;R为感受野的大小和扩张,R内每一个元素表示感受野内其他点相对于感受野中心点p0点坐标的偏移;p0+pn+△pn为Y(p0)所对应的卷积区域,△pn为感受野偏置,△pn内的横纵坐标均属于[-1,1]中的小数,pn∈R,pn指的是特征图中中心点p0点对应感受野内的偏移量,p0+pn为特征图中p0点对应感受野中偏移pn后的点;W(pn)为偏移值pn的权值;I(p0+pn+△pn)为Y(p0)所对应的卷积区域内的特征图。7.根据权利要求1所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,编码用二维递归网络和解码用二维递归网络均包含2个BiLSTM网络,分别为水平BiLSTM和竖直BiLSTM,每个BiLSTM包含2个LSTM,其中编码用二维递归网络和解码用二维递归网络针对于输入的特征图的操作过程均如下:步骤S2-1、根据窗口设置扫描输入特征图,产生窗口特征图;步骤S2-2、首先采用列规则将窗口特征图转化为序列帧,然后将序列帧送入到水平BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;步骤S2-3、对步骤S2-2中的特征图进行顺时针90度的旋转;步骤S2-4、对于步骤S2-3旋转后的特征图,首先采用列规则将该特征图转化为序列帧,然后将序列帧送入到竖直BiLSTM中进行正反双向的计算;最后将计算结果还原为特征图;步骤S2-5、对步骤S2-4中获取到的特征图进行逆时针90度旋转。8.根据权利要求7所述的基于二维递归网络的自然场景图像中中文文本识别方法,其特征在于,所述步骤S2-2中,当解码用二维递归网络针对于输入的训练样本的编码特征图以及训练后的解码用二维递归网络针对于输入的测试样本的编码特征图进行解码时,水平BiLSTM在进行正反双向计算过程中融入注意力机制,具体过程如下:步骤S2-2-1、首先在当前时刻第t个时刻计算由上一个时...

【专利技术属性】
技术研发人员:高学刘衍平
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1