融合多层特征增强注意力机制的文字识别方法技术

技术编号:28422025 阅读:99 留言:0更新日期:2021-05-11 18:29
本发明专利技术涉及计算机视觉中的光学字符识别技术领域,提供一种融合多层特征增强注意力机制的文字识别方法,该方法包括:选取训练图片;提取图片特征;构建特征融合矩阵并融合多层特征;利用关联特征进行特征融合,增强特征表现能力;对融合后的特征进行序列建模;对序列建模后的特征进行概率预测;在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字。本发明专利技术通过将神经网络的各个层级提取到的特征进行相互映射,以此来提升特征的表达能力,从而提高了文字识别的准确率。

【技术实现步骤摘要】
融合多层特征增强注意力机制的文字识别方法
本专利技术涉及计算机视觉中的光学字符识别
,具体涉及一种融合多层特征增强注意力机制的文字识别方法。
技术介绍
在移动互联网是时代,每天都能够收发大量的图片数据,其中许多图片不乏包含文字信息,而能够对图片中的文字信息进行准确地提取就变得尤为重要了。人们可能需要将手机拍摄的稿件转换为电子版,也可能需要将平时看到的图片中的文字保存下来,等等。随着图片的增多,图片中的文字也随之增加,能够对图片中的文字进行准确地识别逐渐成为新的趋势。文字识别主要是对图片中有文字区域的部分进行处理,将图片中的色彩信息转换为字符信息并存储在计算机中。现有的文字识别方法主要分为两种:(1)以传统的方法对图片进行处理,并采用分类的方法对文字进行识别。主要的步骤为对图像进行灰度变换,二值化等处理获取图片中的文字所在区域;再根据文字区域将对应部分进行裁剪;最后送入到分类器进行分类得到识别结果。这种方法的优点在于处理速度快,同时操作简单;但由于依赖于文字区域的裁剪效果,导致识别准确率不高。(2)以深度学习为基础的识别方法。主要步骤为首先构建一个神经网络,将输入的图片进行处理提取图片的特征,再对提取到的特征进行预测得到识别结果。这种方法的优点在于识别准确率高;但由于其复杂的网络结构导致识别速度较慢。虽然随着深度学习的发展,文字识别在神经网络的作用下准确率越来越高,但是由于识别的效果与网络的结构有着十分紧密的联系,不同的网络结构对同一张图片提取到的特征大不相同,因此得到的结果也不同。尤其是在网络结构特别复杂、网络层数较深的情况下,由于提取到的特征过于抽象,导致最后的预测结果准确率反而比其他方法更低。
技术实现思路
本专利技术的目的是提供一种融合多层特征增强注意力机制的文字识别方法,通过将神经网络的各个层级提取到的特征进行相互映射,以此来提升特征的表达能力,从而提高文字识别的准确率。本专利技术解决其技术问题,采用的技术方案是:本专利技术提出一种融合多层特征增强注意力机制的文字识别方法,包括如下步骤:步骤1.选取训练图片;步骤2.提取图片特征;步骤3.构建特征融合矩阵并融合多层特征;步骤4.利用关联特征进行特征融合,增强特征表现能力;步骤5.对融合后的特征进行序列建模;步骤6.对序列建模后的特征进行概率预测;步骤7.在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;步骤8.在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字。进一步的是,步骤1具体包括:步骤101.从现有的训练数据集中选择一张带有文字的图片,将图片作为网络的输入,原始图片记为X;步骤102.将输入图片尺寸缩放到长宽分别为32*100,记缩放后的图片为X'。进一步的是,步骤2具体包括:步骤201.便用经过修改的残差网络,残差块为BasicBlock,共有4个残差块,每个残差块的层数分别为1、2、5、3;步骤202.将缩放后的图片X′输入到网络模型中,模型分别将第三个残差块的第一层、第三个残差块、第四个残差块的输出作为提取的图像的特征,分别记为LC1×H×W、MC1×H×W、HC2×H×W,分别表示低层级,中层级及高层级的特征,其中C、H、W分别表示各个特征的通道数、高度和宽度;步骤203.分别将三个层级的特征进行reshape操作,记新的特征为LN×C1、MN×C1、HN×C2,其中N为H×W。进一步的是,步骤3具体包括:步骤301.分别将三个层级的特征分别进行一次自注意力操作,即分别输入到一个1x1的卷积层中生成只有一个通道的掩码,记三个层级的特征掩码分别为ML、MM、MH,再将掩码与原特征进行逐元素相乘;L1N×C1=ML×LN×C1M1N×C1=MM×MN×C1H1N×C2=M厅×HN×C2步骤302.关联特征矩阵的生成由于有两组相邻层级的特征(L1N×C1、M1N×C1)与(M1N×C1、H1N×C2),因此需要有两组关联特征;步骤303.对于第一组关联特征,首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数,记映射矩阵为U1C1×C3、V1C1×C3,映射完成后通过一个双线性池化向量P11×C3来生成关联特征,记第一组关联特征为ClmN×N,计算公式为:ClmN×N=((IN×1·P11×C3)×σ(L1N×C1·U1C1×C3))·σ((V1C1×C3)T·(M1N×C1)T)其中IN×1表示元素全为1的矩阵,σ(·)表示激活函数,.表示矩阵乘法,×表示逐元素相乘,(·)T表示矩阵转置;步骤304.对于第二组关联特征,也需要两个映射矩阵U2C1×C3、V2C2×C3,及一个双线性池化向量P21×C3,记生成的关联特征为CmhN×N,计算公式为:CmhN×N=((IN×1·P21×C3)×σ(M1N×C1·U2C1×C3))·σ((V2C2×C3)T·(H1N×C2)T)。进一步的是,步骤4具体包括:步骤401.对第一组层级特征,将得到的关联特征ClmN×N用于提升低层级L1N×C1与中层级M1N×C1的表现能力,首先需要定义两个通道映射矩阵,U3C1×C4、V3C1×C4将低层级与中层级的进行统一,之后定义两个特征映射矩阵Q1C4×C5和Q2C4×C5分别将统一了通道的层级特征增强;记增强后的低层级特征和中层级特征为LaN×C5、Ma1N×C5,计算公式为:Ma2N×C5=((σ(M1N×C1·U4C1×C4)T)×(σ(H1N×C2·V4C2×C4)T·(CmhN×N)T))T·Q3C4×C5Ha1N×C5=((σ(M1N×C1·U4C1×C4)T·CmhN×N)×(σ(H1N×C2·V4C2×C4)T))T·Q4C4×C5步骤402.对第二组层级特征进行,使用的关联特征为CmhN×N,定义四个矩阵U4C1×C4与V4C2×C4、Q3C4×C5与Q4C4×C5,记增强后的中层级特征和高层级特征为Ma2N×C5、Ha1N×C5,计算公式为:Ma2N×C5=((σ(M1N×C1·U4C1×C4)T)×(σ(H1N×C2·V4C2×C4)T·(CmhN×N)T))T,Q3C4×C5Ha1N×C5=((σ(M1N×C1·U4C1×C4)T·CmhN×N)×(σ(H1N×C2·V4C2×C4)T))T·Q4C4×C5步骤403.由干中层级特征再两组操作中都进行了增强,因此将两个增强后的中层级特征相加作为完整的中层级特征,记为Ma3N×C5:Ma3N×C5=Ma1N×C5+Ma2N×C5步骤404.为了将增强后的三个层级的特征进行特征表现,首先将LaN×C6进行reshape操作,将维度恢复为C6×H×W,记为LaC6×H×W再作为输入重新输入到网络模型的第三个残差块;步骤40本文档来自技高网
...

【技术保护点】
1.融合多层特征增强注意力机制的文字识别方法,其特征在于,包括如下步骤:/n步骤1.选取训练图片;/n步骤2.提取图片特征;/n步骤3.构建特征融合矩阵并融合多层特征;/n步骤4.利用关联特征进行特征融合,增强特征表现能力;/n步骤5.对融合后的特征进行序列建模;/n步骤6.对序列建模后的特征进行概率预测;/n步骤7.在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;/n步骤8.在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字。/n

【技术特征摘要】
1.融合多层特征增强注意力机制的文字识别方法,其特征在于,包括如下步骤:
步骤1.选取训练图片;
步骤2.提取图片特征;
步骤3.构建特征融合矩阵并融合多层特征;
步骤4.利用关联特征进行特征融合,增强特征表现能力;
步骤5.对融合后的特征进行序列建模;
步骤6.对序列建模后的特征进行概率预测;
步骤7.在训练阶段,采用反向传播对网络模型的参数权重进行更新,得到可用于文字识别的标准网络模型;
步骤8.在测试阶段,将待识别的图片输入到训练好的网络模型中,模型识别并输出图片中的文字。


2.根据权利要求1所述的融合多层特征增强注意力机制的文字识别方法,其特征在于,步骤1具体包括:
步骤101.从现有的训练数据集中选择一张带有文字的图片,将图片作为网络的输入,原始图片记为X;
步骤102.将输入图片尺寸缩放到长宽分别为32*100,记缩放后的图片为X′。


3.根据权利要求2所述的融合多层特征增强注意力机制的文字识别方法,其特征在于,步骤2具体包括:
步骤201.使用经过修改的残差网络,残差块为BasicBlock,共有4个残差块,每个残差块的层数分别为1、2、5、3;
步骤202.将缩放后的图片X′输入到网络模型中,模型分别将第三个残差块的第一层、第三个残差块、第四个残差块的输出作为提取的图像的特征,分别记为LC1×H×W、MC1×H×W、HC2×H×W,分别表示低层级,中层级及高层级的特征,其中C、H、W分别表示各个特征的通道数、高度和宽度;
步骤203.分别将三个层级的特征进行reshape操作,记新的特征为LN×C1、MN×C1、HN×C2,其中N为H×W。


4.根据权利要求3所述的融合多层特征增强注意力机制的文字识别方法,其特征在于,步骤3具体包括:
步骤301.分别将三个层级的特征分别进行一次自注意力操作,即分别输入到一个1x1的卷积层中生成只有一个通道的掩码,记三个层级的特征掩码分别为ML、MM、MH,再将掩码与原特征进行逐元素相乘;
L1N×C1=ML×LN×C1
M1N×C1=MM×MN×C1
H1N×C2=M厅×HN×C2
步骤302.关联特征矩阵的生成由于有两组相邻层级的特征(L1N×C1、M1N×C1)与(M1N×C1、H1N×C2),因此需要有两组关联特征;
步骤303.对于第一组关联特征,首先需要两个映射矩阵分别将两个特征的通道数映射到统一通道数,记映射矩阵为U1C1×C3、V1C1×C3,映射完成后通过一个双线性池化向量P11×C3来生成关联特征,记第一组关联特征为ClmN×N,计算公式为:
ClmN×N=((IN×1·P11×C3)×σ(L1N×C1·U1C1×C3))·σ((V1C1×C3)T·(M1N×C1)T)
其中IN×1表示元素全为1的矩阵,σ(·)表示激活函数,·表示矩阵乘法,×表示逐元素相乘,(·)T表示矩阵转置;
步骤304.对于第二组关联特征,也需要两个映射矩阵U2C1×C3、V2C2×C3,及一个双线性池化向量P21×C3,记生成的关联特征为CmhN×N,计算公式为:
CmhN×N=((IN×1·P21×C3)×σ(M1N×C1·U2C1×C3))·σ((V2C2×C3)T·(H1N×C2)T)。


5.根据权利要求4所述的融合多层特征增强注意力机制的文字识别方法,其特征在于,步骤4具体包括:
步骤401.对第一组层级特征,将得到的关联特征ClmN×N用于提升低层级L1N×C1与中层级M1N×C1的表现能力,首先需要定义两个通道映射矩阵,U3C1×C4、V3C1×C4将低层级与中层级的进行统一,之后定义两个特征映射矩阵Q1C4×C5和Q2C4×C5分别将统一了通道的层级特征增强;记增强后的低层级特征和中层级特征为LaN×C5、Ma1N×C5,计算公式为:
Ma2N×C5=((σ(M1N×C1·U4C1×C4)T)×(σ(H1N×C2·V4C2×C4)T·(CmhN×N)T))T·Q3C4×C5
Ha1N×C5=((σ(M1N×C1·U4C1×C4)T·CmhN×N)×(σ(H1N×C2·V4C2×C4)T))T·Q4C4×C5
步骤402.对第二组层级...

【专利技术属性】
技术研发人员:徐行赖逸沈复民邵杰申恒涛
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1