一种基于ResNet与注意力机制的手写数学公式识别方法技术

技术编号:38766374 阅读:26 留言:0更新日期:2023-09-10 10:39
本发明专利技术公开了一种基于ResNet与注意力机制的手写数学公式识别方法,该方法特征在于,主要包括以下内容:(1)采用ResNet作为编码器对图像进行特征提取;(2)在使用ResNet编码过程中加入SE模块来提高对重要特征信息的学习和提取;(3)采用GRU作为解码器解析输出LaTeX序列;(4)在解码时引入注意力机制,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。符号识别和结构分析。符号识别和结构分析。

【技术实现步骤摘要】
一种基于ResNet与注意力机制的手写数学公式识别方法


[0001]本专利技术涉及涉及一种手写数学公式的识别方法,尤其涉及一种基于ResNet与注意力机制的手写数学公式识别方法。

技术介绍

[0002]如今,在互联网与人工智能飞速发展的当下,教育模式也悄然发生了变化。在教育领域,数学课程中,学生和老师每天产生大量的数学公式手写内容,这些书写的内容里包含了丰富且有价值的信息,如果可以将其转化为电子档形式存储将会极大地提高教学效率。
[0003]数学公式识别从广义上来说也是OCR技术中的一种,该技术旨在将图片中的数学公式转换为LaTex等标记语言。目前,传统的OCR方法在普通印刷体文本识别中已经有了很高的准确率,但是由于数学公式的结构较复杂(包括上下标,根号,分式等等),从左到右顺序识别的普通OCR方法不能有效地分析出数学公式的结构与位置关系。
[0004]目前大部分编码器解码器模型中都用普通卷积神经网络或者循环神经网络进行编码解码操作,但是基于手写体字符的多样性,在编码的过程中经过卷积神经网络多次池化以后会出现一些细微的特征丢失,比如说小数点等字符,而且会出现梯度消失或者爆炸等情况。此外,简单的循环神经网络解码器不能聚焦于局部特征进行解码操作,从而不能精准地实现结构分析和符号识别。
[0005]考虑到梯度消失、特征重用度和参数数量等原因,本专利技术提出一种采用残差网络(Residual Network,ResNet)网络作为编码器对图像进行特征提取,结合注意力机制的GRU作为解码器的模型方法。以此来代替单一的卷积神经网络和循环神经网络的模型,在解码LaTeX序列时,通过引入注意力机制,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。

技术实现思路

[0006]本专利技术的目的是为了解决目前对于手写数学公式识别模型方法的准确性较低的问题,提出一种基于ResNet与注意力机制的手写数学公式识别方法。
[0007]为实现以上专利技术目的,而采取的技术手段是:
[0008](1)采用ResNet作为编码器对图像进行特征提取;
[0009](2)在使用ResNet编码过程中加入SE模块来提高对重要特征信息的学习和提取。
[0010](3)采用GRU作为解码器解析输出LaTeX序列。
[0011](4)在解码时引入注意力机制,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。
[0012]优选地,所述专利技术采用ResNet作为图像编码器,从输入的图像提取其高维视觉特征。其编码的过程为:
[0013]采用标准的残差网络Resnet34来对图像特征进行提取,输入为图像,输出是一个大小为H
×
W
×
D的三维数组:
[0014]x=ResNet(img),img∈R
H
×
W
×
D
[0015]令L=H
×
W,那么可以把这个三维特征图视为长度为L的D维特征序列。输出序列当中的每个元素都是对应于图像局部区域的D维编码:
[0016]A={a1,a2,

,a
L
},a
i
∈R
D
[0017]优选地,所属专利技术采用结合SE模块的ResNet作为图像编码器,将SE模块添加在一些主干网络,来提高对图像特征信息的学习与提取。SE(Squeeze

and

Excitation)模块主要对ResNet的各个主干网络通道进行权重的分配,首先Squeeze操作利用全局的池化,将大小为C
×
H
×
W的输入特征综合为C
×1×
1的特征描述:
[0018][0019]在Squeeze操作之后,网络也仅仅是得到了一个全局描述,这个描述并不能作为该通道的权重。因此需要进行Excitation操作来相对全面地获取通道权重。该操作包含了两个全连接层和Sigmoid激活函数。全连接层能够很好的融合全部的输入特征信息,而Sigmoid函数也能够很好的将输入映射到0

1区间:
[0020]s=F
ex
(z,w)=σ(g(z,w))=σ(w2δ(w1z))
[0021]其中z为Squeeze操作获得的全局描述,δ表示Relu函数,保证输为正,w1w2为两个全连接层,其中其中r为缩放参数,主要用于减轻网络的计算复杂度和参数量。
[0022]网络经过Excition操作之后,就获得了输入特征图中的各个通道的权重,剩下的就是将权重和原始的特征融合:
[0023][0024]优选地,所述专利技术采用GRU作为解码器生成输出LaTex字符串的过程为:
[0025]首先,对于当前时间步给定的输入x,当前时间步隐藏层的隐藏状态h
t
可以按照以下公式计算:
[0026]h
t
=GRU(x
t
,h
t
‑1)
[0027]GRU主要包含两个门控状态分别是更新门和重置门,更新们控制前边记忆信息能够继续保留到当前时刻的数据量,重置门控制要遗忘多少过去的信息。从而将重要的特征信息保留下来。
[0028]最后,解码器得到最后的输出序列为LaTeX字符串Y:
[0029]Y={y1,y2,...,y
T
},y
t
∈R
K
[0030]其中K是词汇表中的总符号数,T是LaTeX序列的长度。
[0031]优选地,所述专利技术采用的解码器GRU中结合的注意力模型为:
[0032]ResNet编码器输出的序列为A,A在时间步i的元素为a
i
,总的时间步数为L,在引入注意力机制后,解码器在时间步t的上下文变量c
t
就成为了注意力的集中输出,也就是对a
i
的加权和:
[0033][0034]与现有的技术相比,本专利技术方法方案的有益效果为:
[0035]目前大部分编码器解码器模型中都用普通卷积神经网络或者循环神经网络进行编码解码操作,但是基于手写体字符的多样性,在编码的过程中经过卷积神经网络多次池化以后会出现一些细微的特征丢失,比如说小数点等字符,而且会出现梯度消失或者爆炸等情况。而采用ResNet作为编码器对图像进行特征提取可以利用残差神经网络shortcut技术来减少以上问题对特征提取的影响。此外,通过对ResNet编码器中加入SE模块来加强残差神经网络对图像字符的特征提取,该模块主要的功能是对各个通道进行权重的分配,就像Attention一样,帮助网络把重要的特征信息学习到,通过查找资料和实验结果也表明将SE模块添加在一些主干网络中,实验效果还是非常好的。
[0036]目前简单的循环神经网络解码器已经不能聚焦于局部特征进行解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ResNet与注意力机制的手写数学公式识别方法,其特征在于,包括以下步骤:(1)采用ResNet作为编码器对图像进行特征提取;(2)在使用ResNet编码过程中加入SE模块来提高对重要特征信息的学习和提取;(3)采用GRU作为解码器解析输出LaTeX序列;(4)在解码时引入注意力机制,针对图像的不同区域,注意力机制可以引导模型准确地实现符号识别和结构分析。2.根据权利要求1所述的基于ResNet与注意力机制的手写数学公式识别方法,其特征在于,所述方法采用残差神经网络作为编码器,将输入的原始图像编码为高维特征的过程为:采用标准的残差网络Resnet34作为图像编码器,输入为图像img,输出x是一个大小为H
×
W
×
D的三维数组:x=ResNet(img),img∈R
H
×
W
×
D
;令L=H
×
W,把这个三维特征图视为长度为L的D维特征序列;输出序列当中的每个元素都是对应于图像局部区域的D维编码:A={a1,a2,

,a
L
},a
i
∈R
D
。3.根据权利要求1所述的基于ResNet与注意力机制的手写数学公式识别方法,其特征在于,所述方法采用结合SE模块的ResNet网络来对图像进行编码:SE模块引入注意力的思想,对于每个通道,用一个权重来表示其通道在下一阶段的重要性,以此结合残差神经网络学习图像的重要特征信息。4.根据权利要求1所述的基于ResNet与注意力机制的手写数学公式识别方法,其特征在于,所述方法采用门控神...

【专利技术属性】
技术研发人员:穆昊飞徐鲁强张万健
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1