一种手写数学公式识别方法技术

技术编号：40422486 阅读：6 留言：0更新日期：2024-02-20 22:41

本发明专利技术提出一种手写数学公式识别方法，涉及光学字符识别的技术领域，将采集的手写公式图像样本构建为图像数据集，然后构建包括编码模块、计数模块和解码模块的手写数学公式识别模型并利用图像数据集进行训练，通过双向解码机制和注意力精炼模块提升模型的聚焦能力和解码能力，并引入计数模块以多任务协同的方式进一步提升手写数学公式识别准确度，将待识别的手写公式图像输入训练好的手写数学公式识别模型，输出识别得到的手写公式的LaTeX序列，提高了手写数学公式的识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及光学字符识别的，更具体地，涉及一种手写数学公式识别方法。

技术介绍

1、互联网促进了数字经济在各产业中的渗透和发展，用户在互联网络中丰富的用户行为带来了海量数据，促进了人工智能领域的蓬勃发展。计算机视觉和自然语言处理是人工智能中非常热门的领域，其中，计算机视觉中的目标检测任务可以自动识别物体的位置和类别，广泛应用于交通抓拍、工业零件故障检测、人脸识别等诸多领域，对便捷百姓生活、减少不必要的人力消耗具有重要的现实意义。

2、数学公式识别任务(mathematical expression recognition，mer)，是指利用计算机视觉手段，通过符号切割、识别、重组的算法方法或深度学习方法，将电子文档或者手写的数学公式图片转化为规范的latex序列。手写数学公式识别任务(handwrittenmathematical expression recognition，hmer)作为mer任务的分支，包括离线手写数学公式识别和在线手写数学公式识别任务。离线手写数学公式识别任务是将手写数学公式的图片识别为latex序列或其他规范格式，仅利用用户手写公式后生成的图片信息进行分割、识别等操作。离线手写数学公式任务不仅仅局限于线上手写，还可以对线下的手写图片(例如黑板板书图片)进行识别、汇总和整理，有助于实现线下资源的互联网整合。

3、现有技术公开了一种基于深度学习的离线手写数学公式识别方法，利用深度学习的编码器解码器处理流程，使用多尺度densenet结合gca对图像内容进行编码，并使用transfo

技术实现思路

1、为解决当前手写数学公式识别方法字符识别精确度较低的问题，本专利技术提出一种手写数学公式识别方法，构建包括编码模块、计数模块和解码模块的手写数学公式识别模型并进行训练，通过双向解码机制和注意力精炼模块提升模型的聚焦能力和解码能力，并引入计数模块以多任务协同的方式进一步提升手写数学公式识别准确度。

2、为了达到上述技术效果，本专利技术的技术方案如下：

3、一种手写数学公式识别方法，包括：

4、s1.采集手写公式图像样本，组成图像数据集，将图像数据集划分为训练集、验证集和测试集；

5、s2.构建手写数学公式识别模型，所述手写数学公式识别模型包括编码模块、计数模块和解码模块；利用训练集对手写数学公式识别模型进行训练，然后利用验证集对手写数学公式识别模型进行评估，利用测试集测试手写数学公式识别模型的有效性，得到训练好的手写数学公式识别模型；

6、s3.将待识别的手写公式图像输入训练好的手写数学公式识别模型，输出识别得到的手写公式的latex序列。

7、本技术方案在常规手写数学公式识别模型的基础上，引入了计数模块，利用多任务协同的方式进一步提升手写数学公式识别准确度。

8、优选地，所述手写数学公式识别模型的数据形式均为张量。

9、优选地，在步骤s1中，还包括将手写公式图像样本进行灰度处理。

10、优选地，所述编码模块包括依次连接的densenet编码模块、正余弦位置编码和编码加强模块；

11、所述densenet编码模块用于对输入的手写公式图像进行初步特征提取，得到初步特征图；

12、所述正余弦位置编码用于在初步特征图中嵌入图片特征的位置信息，所述位置信息通过对初步特征图进行2d卷积获得；

13、在此，利用正余弦的周期性，保证不同长度的序列均能表征到[-1,1]的空间内，通过正余弦结合的设计，将两个位置间的相对位置距离特征表示出来。

14、所述编码加强模块用于对嵌入位置信息的初步特征图进行特征加强。

15、优选地，所述编码加强模块包括transformer编码层和条件位置编码生成器，所述transformer编码层包括多头注意力模块和前馈网络；在此，利用多头注意力模块获得全局视野下的特征图重要性，利用前馈网络增加非线性信息；

16、将densenet输出的初步特征图x输入transformer编码层，对初步特征图x进行线性变换，得到初步特征图x的query矩阵q、key矩阵k和value矩阵v；

17、利用多头注意力模块，对q、k、v进行h次线性变换后输入到缩放点积注意力中，将h次缩放点积注意力结果进行拼接，再进行一次线性变换得到多头注意力的输出结果x′，x′的表达公式如下：

18、x′＝multihead(q，k，v)＝concat(head1，...，headh)wo

19、其中，o代表1×1卷积；在此，利用多头注意力模块尝试通过不同角度训练q、k、v的权重并获得多角度的注意力，通过多维度进行特征的整体表征；

20、利用全连接前馈网络对x′进行进一步特征聚合，输出扁平序列x；

21、利用条件位置编码生成器，对transformer编码层输出的扁平序列x进行条件位置编码嵌入。

22、优选地，在所述条件位置编码生成器中，首先将transformer编码层输出的扁平序列重塑为具有二维空间的然后将其映射至二维图像空间中，再进行一轮重塑，公式如下：

23、

24、其中，cpe表示条件位置编码生成器，表示重塑操作，f表示映射操作；在此，利用条件位置编码生成器实现绝对位置编码和相对位置编码共同作用。

25、在此，增加相对位置信息，有助于更好地利用每个元素之间的位置关系。

26、优选地，所述计数模块包括3×3卷积网络分支和5×5卷积网络分支；所述3×3卷积网络分支包括依次连接的3×3卷积、用于进行通道维度和空间维度的权重重整的卷积注意力模块、1×1卷积、sigmoid函数和通道求和函数；所述5×5卷积网络分支包括依次连接的5×5卷积、卷积注意力模块、1×1卷积、sigmoid函数和通道求和函数；

27、其中，每个分支的单分支计数向量c的计算公式如下：

28、c＝sum(sigmoid(o(m)))

29、其中，sum代表以通道为单位进行求和全局操作，o表示1×1卷积，m表示分支的输入；对单分支计数向量c进行均值运算，将得到初步特征图的计数向量作为计数模块预测结果v。

30、在此，通过多任务协同的方式实现手写数学公式识别。

31、优选地，在步骤s2中，对解码模块进行训练时，首先获取图像数据集中与扁平序列x对应的手写公式图像样本实际公式的latex序列，记为真实序列，将真实序列以最长序列长度lm进行0填充，得到规整张量，再通过本文档来自技高网...

【技术保护点】

1.一种手写数学公式识别方法，其特征在于，包括：

2.根据权利要求1所述的手写数学公式识别方法，其特征在于，在步骤S1中，还包括将手写公式图像样本进行灰度处理。

3.根据权利要求2所述的手写数学公式识别方法，其特征在于，所述编码模块包括依次连接的DenseNet编码模块、正余弦位置编码和编码加强模块；

4.根据权利要求3所述的手写数学公式识别方法，其特征在于，所述编码加强模块包括Transformer编码层和条件位置编码生成器，所述Transformer编码层包括多头注意力模块和前馈网络；

5.根据权利要求4所述的手写数学公式识别方法，其特征在于，在所述条件位置编码生成器中，首先将Transformer编码层输出的扁平序列重塑为具有二维空间的然后将其映射至二维图像空间中，再进行一轮重塑，公式如下：

6.根据权利要求4所述的手写数学公式识别方法，其特征在于，所述计数模块包括3×3卷积网络分支和5×5卷积网络分支；所述3×3卷积网络分支包括依次连接的3×3卷积、卷积注意力模块、1×1卷积、sigmoid函数和通道求和函数；所

7.根据权利要求4-6任一项所述的手写数学公式识别方法，其特征在于，在步骤S2中，对解码模块进行训练时，首先获取图像数据集中与扁平序列x对应的手写公式图像样本实际公式的LaTex序列，记为真实序列，将真实序列以最长序列长度Lm进行0填充，得到规整张量，再通过嵌入层对规整张量进行数据降维和向量化；

8.根据权利要求7所述的手写数学公式识别方法，其特征在于，所述解码模块由掩码自注意力模块、多头交互注意力模块前馈层和归一化层交替串联组成；

9.根据权利要求8所述的手写数学公式识别方法，其特征在于，在步骤S2中，对手写数学公式识别模型进行训练，直到手写数学公式识别模型的损失函数Loss收敛；损失函数Loss的计算公式如下：

10.根据权利要求9所述的手写数学公式识别方法，其特征在于，对解码模块进行训练时，利用解码模块的置换不变性进行序列的双向解码；

...

【技术特征摘要】

1.一种手写数学公式识别方法，其特征在于，包括：

2.根据权利要求1所述的手写数学公式识别方法，其特征在于，在步骤s1中，还包括将手写公式图像样本进行灰度处理。

3.根据权利要求2所述的手写数学公式识别方法，其特征在于，所述编码模块包括依次连接的densenet编码模块、正余弦位置编码和编码加强模块；

4.根据权利要求3所述的手写数学公式识别方法，其特征在于，所述编码加强模块包括transformer编码层和条件位置编码生成器，所述transformer编码层包括多头注意力模块和前馈网络；

5.根据权利要求4所述的手写数学公式识别方法，其特征在于，在所述条件位置编码生成器中，首先将transformer编码层输出的扁平序列重塑为具有二维空间的然后将其映射至二维图像空间中，再进行一轮重塑，公式如下：

6.根据权利要求4所述的手写数学公式识别方法，其特征在于，所述计数模块包括3×3卷积网络分支和5×5卷积网络分支；所述3×3卷积网络分支包括依次连接的3×3卷积、卷积注意力模块、1×1...

【专利技术属性】
技术研发人员：谭军，黄晓楠，肖海洋，毕宁，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人