一种基于ResNet与注意力机制的手写数学公式识别方法技术

技术编号：38766374 阅读：26 留言：0更新日期：2023-09-10 10:39

本发明专利技术公开了一种基于ResNet与注意力机制的手写数学公式识别方法，该方法特征在于，主要包括以下内容：(1)采用ResNet作为编码器对图像进行特征提取；(2)在使用ResNet编码过程中加入SE模块来提高对重要特征信息的学习和提取；(3)采用GRU作为解码器解析输出LaTeX序列；(4)在解码时引入注意力机制，针对图像的不同区域，注意力机制可以引导模型准确地实现符号识别和结构分析。符号识别和结构分析。符号识别和结构分析。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于ResNet与注意力机制的手写数学公式识别方法

[0001]本专利技术涉及涉及一种手写数学公式的识别方法，尤其涉及一种基于ResNet与注意力机制的手写数学公式识别方法。

技术介绍

[0002]如今，在互联网与人工智能飞速发展的当下，教育模式也悄然发生了变化。在教育领域，数学课程中，学生和老师每天产生大量的数学公式手写内容，这些书写的内容里包含了丰富且有价值的信息，如果可以将其转化为电子档形式存储将会极大地提高教学效率。
[0003]数学公式识别从广义上来说也是OCR技术中的一种，该技术旨在将图片中的数学公式转换为LaTex等标记语言。目前，传统的OCR方法在普通印刷体文本识别中已经有了很高的准确率，但是由于数学公式的结构较复杂(包括上下标，根号，分式等等)，从左到右顺序识别的普通OCR方法不能有效地分析出数学公式的结构与位置关系。
[0004]目前大部分编码器解码器模型中都用普通卷积神经网络或者循环神经网络进行编码解码操作，但是基于手写体字符的多样性，在编码的过程中经过卷积神经网络多次池化以后会出现一些细微的特征丢失，比如说小数点等字符，而且会出现梯度消失或者爆炸等情况。此外，简单的循环神经网络解码器不能聚焦于局部特征进行解码操作，从而不能精准地实现结构分析和符号识别。
[0005]考虑到梯度消失、特征重用度和参数数量等原因，本专利技术提出一种采用残差网络(Residual Network,ResNet)网络作为编码器对图像进行特征提取，结合注意力机制的GRU作为解码器的模型方法。以...

【技术保护点】

【技术特征摘要】
1.一种基于ResNet与注意力机制的手写数学公式识别方法，其特征在于，包括以下步骤：(1)采用ResNet作为编码器对图像进行特征提取；(2)在使用ResNet编码过程中加入SE模块来提高对重要特征信息的学习和提取；(3)采用GRU作为解码器解析输出LaTeX序列；(4)在解码时引入注意力机制，针对图像的不同区域，注意力机制可以引导模型准确地实现符号识别和结构分析。2.根据权利要求1所述的基于ResNet与注意力机制的手写数学公式识别方法，其特征在于，所述方法采用残差神经网络作为编码器，将输入的原始图像编码为高维特征的过程为：采用标准的残差网络Resnet34作为图像编码器，输入为图像img，输出x是一个大小为H
×
W
×
D的三维数组：x＝ResNet(img),img∈R
H
×
W
×
D
；令L＝H
×
W，把这个三维特征图视为长度为L的D维特征序列；输出序列当中的每个元素都是对应于图像局部区域的D维编码：A＝{a1,a2,
…
,a
L
},a
i
∈R
D
。3.根据权利要求1所述的基于ResNet与注意力机制的手写数学公式识别方法，其特征在于，所述方法采用结合SE模块的ResNet网络来对图像进行编码：SE模块引入注意力的思想，对于每个通道，用一个权重来表示其通道在下一阶段的重要性，以此结合残差神经网络学习图像的重要特征信息。4.根据权利要求1所述的基于ResNet与注意力机制的手写数学公式识别方法，其特征在于，所述方法采用门控神...

【专利技术属性】
技术研发人员：穆昊飞，徐鲁强，张万健，
申请(专利权)人：西南科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人