基于注意力机制与联结时间分类损失的文字识别方法技术

技术编号:20623674 阅读:32 留言:0更新日期:2019-03-20 14:55
本发明专利技术公开了一种基于注意力机制与联结时间分类损失的文字识别方法,包括如下步骤:S1:采集数据集;S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理;S3:对样本的标签序列进行处理,包括填补,编码和词嵌入;S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取;S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征;S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率;S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。

A Text Recognition Method Based on Attention Mechanism and Association Time Classification Loss

The invention discloses a text recognition method based on attention mechanism and loss of connection time classification, which includes the following steps: S1: collecting data sets; S2: preprocessing image samples such as scale scaling, gray scale conversion and pixel normalization; S3: processing the label sequence of samples, including filling, encoding and word embedding; S4: constructing convolutional neural network to process the label sequence after S3. The processed text image is extracted by feature extraction; S5: using stacked bi-directional cyclic neural network to encode the features extracted by S4 to get the coding features; S6: Inputting the coding features obtained by S5 into the connection time classification model to calculate the prediction probability; S7: Using the attention mechanism to calculate the weight of different coding features, to get the coding semantic vector.

【技术实现步骤摘要】
基于注意力机制与联结时间分类损失的文字识别方法
本专利技术属于光学字符识别领域,具体涉及一种基于注意力机制与联结主义时间分类的文字识别方法。
技术介绍
随着智能化和移动终端的大力普及,自然场景图像的语义信息在自动驾驶,智能交通,视觉辅助等领域发挥越来越重要的作用。为解决自然场景文本图像识问题,Strokelets通过对图像块聚类来获取文本中的笔画特征,利用HOG特征检测字符并结合随机森林分类器对字符进行分类。而PhotoOCR系统利用HOG特征分类器对分割得到的候选结果进行打分,再结合N元语言模型的BeamSearch算法得到候选字符集合,最后利用语言模型和形状模型对候选字符组合进行重新排序。JaderbergM等提出的算法结合文本/非文本分类器、字符分类器和二元语言模型分类器,对图像进行密集滑动窗口扫描,并利用固定词典对图片中的单词进行分析,从而达到对文本语义分割和识别的目的。上述方法仍存在以下问题:1)识别的特征依赖人工定义,而人工定义的特征难以捕获图片的深层语义,制作耗时且通用性不高。2)基于单个字符的识别会脱离上下文环境,易导致歧义。3)文本结构复杂、语义多变,需要对字符进行分割预处理,而强行分割会破坏字符结构。4)过度依赖分类字典。分类字典的选取直接影响识别结果,导致识别模型泛化能力差。
技术实现思路
为解决上述问题,本专利技术提出了一种基于注意力机制和联结时间分类损失的端到端自然场景文本识别算法。该算法由多尺度特征提取层,长短使其记忆网络编码层,基于注意力机制和联结时间分类损失的解码层组成。输入为自然场景文本图像,输出为解码后的文本,实现了从图像到文本的端到端识别机制。在提升识别率的同时改善了神经网络在文本识别方向的适用性。为实现上述目的,本专利技术的技术方案为一种基于注意力机制与联结时间分类损失的文字识别方法,包括如下步骤:S1:采集数据集:采集各种自然场景下的文本,并将这些文本合并;将数据集划分为训练数据集,验证数据集,测试数据集三部分;先将原始的数据集打乱,然后按比例进行切分,切分比例为7:2:1;训练数据集作为优化模型参数使用,验证数据集作为模型选择使用,测试数据集作为模型最终评估使用;将挑选的数据集记作T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi表示第i张图片,yi表示第i个图片对应的标签,N表示样本的总数;S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理;S3:对样本的标签序列进行处理,包括填补,编码和词嵌入;S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取;S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征;S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率;S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。进一步的,所述步骤S2具体包括如下步骤:S2.1:选取B个样本作为一个批次的训练数据β,其中β={x1,x2,…,xB};B个样本可能有不同的高和宽,样本维度为Shape={(h1,w1,3),(h2,w2,3),…,(hB,wB,3)};将样本集β中每个样本进行等比例缩放,其中高固定为32个像素,得到新数据样本集,此时新样本的维度为Shape={(32,w′1,3),(32,w′2,3),…,(32,w′B,3)};获取新样本集中文本图片的最大宽度值wmax=max(w′1,w′2,…,w′B),其中max(·)表示其中元素的最大值;通过填补,镜像或者缩放等方法将新样本集中的宽度变换到最大的宽度,高固定为32,获得新的样本数据集β′,新样本集的维度为Shape={(32,wmax,3),(32,wmax,3),…,(32,wmax,3)};S2.2:对β′中每一个样本进行灰度转换和像素归一化处理,步骤如下:S2.2.1:对训练集T′中每张彩色图像进行灰度转换,变化公式如下:x′gray=xr*0.299+xg*0.587+xb*0.114其中,x为彩色图片样本,xr,xg,xb分别为样本的红色,绿色,蓝色通道的数值,xgray为变换后的灰色样本的像素值;S2.2.2:对灰度转换后样本进行像素归一化,即将[0,255]的像素值转换到[-0.5,0.5];其中,xgray为S3.1转换后得到的灰色图像,xnorm为像素归一化后的数值。进一步的,所述步骤S3具体包括如下步骤:S3.1:B个样本对应的标签为Y={y1,y2,…,yB},第i个样本对应的标签为yi={s1,s2,…,sm},m为组成第i个标签的序列的长度,sj为第j个标签的序列的第j个字符;每个标签的序列长度为len={m1,m2,…,mB};获得最大的长度值lmax=max(m1,m2,…,mB),并将所有的序列填补成相同的长度;S3.2:对S3.1得到的标签进行编码和和词嵌入,得到词嵌入后的向量;具体步骤如下:S3.2.1:创建编码字典,将标签中出现的字符或字符串转换为对应的数字编码;S3.2.2:构建词嵌入模型,将编码后的标签输入到词嵌入模型中,将离散的数字映射到连续区域,最终每个标签得到固定的长度的词向量。进一步的,所述步骤S4具体包括如下步骤:S4.1:构建InceptionV2结构的卷积神经网络提取文本特征,InceptionV2的结构为1x1,3x3,5x5的卷积层和3x3的pooling层并行堆叠在一起,并在每一层前都使用上一层1x1的卷积层作为特征降维;S4.2:每一层Inception结构后堆叠批标准化层(BN),批标准化变换公式为其中,β为一个训练批次的样本集,表示为β={x1,x2,…,xB},i表示样本集β中的第i个样本,μβ表示样本集β的样本均值,为样本集β的样本方差,ε为防止分母等于零增加的极小数;γ和β是学习的参数;S4.3:重复堆叠Inception和BN层,经过构建后的网络使得特征图输出维度为shape=[B,1,w,c],其中B为一个批次的样本数量,1为经过卷积网络后特征的高,w为特征图的宽度,c为特征图的通道数量。进一步的,所述步骤S5具体包括如下步骤:S5.1:构建循环神经网络使用堆叠式双向循环神经网络对S4.1提取的特征进行编码,得到编码特征序列;循环神经网络由三部分组成:首先是一个全连接网络层用来嵌入经过编码后的特征,然后将特征输入至LSTM(长短时期记忆网络)的双向循环神经网络,进行两层双向LSTM堆叠,具体操作步骤如下:S5.1.1:构建第一层双向循环神经网络,双向循环神经网络为两个单向其方向相反的循环神经网络,前向网络和反向网络的结合,在每一个时刻t,网络的输出由这两个方向相反的单向循环神经网络共同决定,设置nin=512,nstep=w,nnums=256,其中nin为LSTM的双向循环神经网络的输入层神经元数目,nstep代表循环神经网络的循环次数,此处为特征图的宽度,nnums表示为LSTM隐藏层神经元的数目;S5.1.2:构建第二层双向循环神经网络,设置nin=256,nstep=w,nnums=256,其中nin为循环神经网络的输入,此处为第一层循环神经网络的输出,nstep代表循环神经网络的循环次数,nnums表示为LSTM隐藏层神经元个数;双向循环神经网络本文档来自技高网...

【技术保护点】
1.基于注意力机制与联结时间分类损失的文字识别方法,包括如下步骤:S1:采集数据集:采集各种自然场景下的文本,并将这些文本合并;将数据集划分为训练数据集,验证数据集,测试数据集三部分;先将原始的数据集打乱,然后按比例进行切分,切分比例为7:2:1;训练数据集作为优化模型参数使用,验证数据集作为模型选择使用,测试数据集作为模型最终评估使用;将挑选的数据集记作T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi表示第i张图片,yi表示第i个图片对应的标签,N表示样本的总数;S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理;S3:对样本的标签序列进行处理,包括填补,编码和词嵌入;S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取;S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征;S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率;S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。

【技术特征摘要】
1.基于注意力机制与联结时间分类损失的文字识别方法,包括如下步骤:S1:采集数据集:采集各种自然场景下的文本,并将这些文本合并;将数据集划分为训练数据集,验证数据集,测试数据集三部分;先将原始的数据集打乱,然后按比例进行切分,切分比例为7:2:1;训练数据集作为优化模型参数使用,验证数据集作为模型选择使用,测试数据集作为模型最终评估使用;将挑选的数据集记作T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi表示第i张图片,yi表示第i个图片对应的标签,N表示样本的总数;S2:对图片样本进行尺度缩放,灰度转换和像素归一化等预处理;S3:对样本的标签序列进行处理,包括填补,编码和词嵌入;S4:构建卷积神经网络,对经过S3处理后的文本图像进行特征提取;S5:使用堆叠式双向循环神经网络对S4提取的特征进行编码,得到编码特征;S6:将S5得到的编码特征输入到联结时间分类模型中计算预测概率;S7:使用注意力机制计算不同编码特征的权重,得到编码后的语义向量。2.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S2具体包括如下步骤:S2.1:选取B个样本作为一个批次的训练数据β,其中β={x1,x2,…,xB};B个样本可能有不同的高和宽,样本维度为Shape={(h1,w1,3),(h2,w2,3),…,(hB,wB,3)};将样本集β中每个样本进行等比例缩放,其中高固定为32个像素,得到新数据样本集,此时新样本的维度为Shape={(32,w′1,3),(32,w′2,3),…,(32,w′B,3)};获取新样本集中文本图片的最大宽度值wmax=max(w′1,w′2,…,w′B),其中max(·)表示其中元素的最大值;通过填补,镜像或者缩放等方法将新样本集中的宽度变换到最大的宽度,高固定为32,获得新的样本数据集β′,新样本集的维度为Shape={(32,wmax,3),(32,wmax,3),…,(32,wmax,3)};S2.2:对β′中每一个样本进行灰度转换和像素归一化处理,步骤如下:S2.2.1:对训练集T′中每张彩色图像进行灰度转换,变化公式如下:x′gray=xr*0.299+xg*0.587+xb*0.114其中,x为彩色图片样本,xr,xg,xb分别为样本的红色,绿色,蓝色通道的数值,xgray为变换后的灰色样本的像素值;S2.2.2:对灰度转换后样本进行像素归一化,即将[0,255]的像素值转换到[-0.5,0.5];其中,xgray为S3.1转换后得到的灰色图像,xnorm为像素归一化后的数值。3.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S3具体包括如下步骤:S3.1:B个样本对应的标签为Y={y1,y2,…,yB},第i个样本对应的标签为yi={s1,s2,…,sm},m为组成第i个标签的序列的长度,sj为第j个标签的序列的第j个字符;每个标签的序列长度为len={m1,m2,…,mB};获得最大的长度值lmax=max(m1,m2,…,mB),并将所有的序列填补成相同的长度;S3.2:对S3.1得到的标签进行编码和和词嵌入,得到词嵌入后的向量;具体步骤如下:S3.2.1:创建编码字典,将标签中出现的字符或字符串转换为对应的数字编码;S3.2.2:构建词嵌入模型,将编码后的标签输入到词嵌入模型中,将离散的数字映射到连续区域,最终每个标签得到固定的长度的词向量。4.如权利要求1所述的基于注意力机制与联结时间分类损失的文字识别方法,其特征在于:所述步骤S4具体包括如下步骤:S4.1:构建InceptionV2结构的卷积神经网络提取文本特征,InceptionV2的结构为1x1,3x3,5x5的卷积层和3x3的pooling层并行堆叠在一起,并在每一层前都使用上一层1x1的卷积层作为特征降维;S4.2:每一层Inception结构后堆叠批标准化层(BN),批标准化变换公式为其中,β为一个训练批次的样本集,表示为β={x1,x2,…,xB},i表示样本集β中的第i个样本,μβ表示样本集β的样本均值,为样本集β的样本方差,ε为防止分母等于零增加的极小数;γ和β是学习的参数;S4.3:重复堆叠Inception和BN层,经过构建后的网络使得特征图输出维度为shape=[B,1,w,c],其中B为一个批次的样本数...

【专利技术属性】
技术研发人员:和文杰潘勉
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1