一种基于Self-Attention的离线数学公式符号识别方法技术

技术编号：24170896 阅读：43 留言：0更新日期：2020-05-16 02:55

本发明专利技术公开了一种基于Self‑Attention的离线数学公式识别方法，包括：对输入的数学公式图像进行预处理；编码阶段：对数学公式图像进行特征提取；将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度；对提取的特征的隐向量进行编码，获得特征结果向量；解码阶段：依次输入字符到嵌入层，获得嵌入向量；将特征结果向量以及嵌入向量输入到网络块，获取输入字符的结果向量；获取输入字符的结果向量对应的的概率向量，找出概率向量中最大概率值索引对应的字符作为生成的字符；循环解码阶段，获得数学公式图像对应的latex字符序列。本发明专利技术仅仅使用注意力机制，不仅避免了LSTM固有的长距离依赖的问题，而且极大提升了模型的训练效率和识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Self-Attention的离线数学公式符号识别方法
本专利技术涉及计算机领域中的图像识别领域，尤其涉及一种基于Self-Attention的离线数学公式符号识别方法。
技术介绍
现存科技文献中的大量数学公式，保存为不容易被再次利用的形式(例如，各种公式手稿的图片)，导致了很多繁杂且容易出错的重复输入工作，为了整合数学公式资源，有必要建立一种有效的机制把现存的数学公式转化成一种通用的形式，这样既可以节省重复输入数学公式的繁琐人工劳动，也能为数学公式的搜索与处理提供进一步的可能。在输入方面，纸质文档和电子文档一般可以分别通过扫描和格式转换方法转换为图片，不失一般性，通常考虑识别以图片为载体的数学公式。在输出方面，识别结果应为简单、规范且通用的数学公式表示。OCR(OpticalCharacterRecognition，光学符号识别)技术，是通过扫描等光学方式将各种报刊、书籍、文稿及其他印刷品的文字进行输入，再利用文字识别技术将图像信息转化成可以使用的计算机输入技术。OCR技术可以广泛地运用于银行票据、大量文字资料、档案卷宗、文案的录入、处理和检索等领域。数学公式识别一直是OCR中的一项重要研究内容，目的是将印刷体数学公式转换成可编辑的形式，进而实现数学公式的重用，减少工作者的编辑负担。然而，目前OCR虽然在一般文字识别上达到了较高的水平，但对数学公式的识别效果仍然不好，其主要原因在于数学公式本身结构复杂，符号也有多种变化。例如，数学表达式有上下结构、半包围结构等，公式中不仅包含阿拉伯数字、大小...

【技术保护点】
1.一种基于Self-Attention的离线数学公式识别方法，其特征在于，包括步骤：/n对输入的数学公式图像进行预处理；/n编码阶段：/n通过卷积神经网络对数学公式图像进行特征提取；/n将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度；/n利用基于多头的自注意力机制对提取的特征的隐向量进行编码，获得具有上下文信息的特征结果向量；/n解码阶段：/n依次输入字符到嵌入层，获得字符相应的嵌入向量；/n将编码阶段获得的特征结果向量以及获得的嵌入向量输入到由掩式多头自注意力层、多头注意力层和全连接层组成的网络块，获取输入字符的结果向量；/n利用softmax函数获取输入字符的结果向量对应的的概率向量，找出概率向量中最大概率值索引对应的字符作为生成的字符；/n循环解码阶段，获得数学公式图像对应的latex字符序列。/n

【技术特征摘要】
1.一种基于Self-Attention的离线数学公式识别方法，其特征在于，包括步骤：
对输入的数学公式图像进行预处理；
编码阶段：
通过卷积神经网络对数学公式图像进行特征提取；
将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度；
利用基于多头的自注意力机制对提取的特征的隐向量进行编码，获得具有上下文信息的特征结果向量；
解码阶段：
依次输入字符到嵌入层，获得字符相应的嵌入向量；
将编码阶段获得的特征结果向量以及获得的嵌入向量输入到由掩式多头自注意力层、多头注意力层和全连接层组成的网络块，获取输入字符的结果向量；
利用softmax函数获取输入字符的结果向量对应的的概率向量，找出概率向量中最大概率值索引对应的字符作为生成的字符；
循环解码阶段，获得数学公式图像对应的latex字符序列。

2.根据权利要求1所述的方法，其特征在于，所述对输入的数学公式图像进行预处理的步骤中，预处理的方法为：
对于高度大于150的图像对其进行等比例的缩小，将其高度固定为150；对于缩小后宽度不大于1200的输入图像通过扩展的方式将图像宽度取不超过150，300，450，600，750，900，1050和1200几个等级中最近的数值；对于缩小后宽度小于1200的图像，需要将该图像进行等比例的缩小，即将其宽度固定为1200。

3.根据权利要求1所述的方法，其特征在于，所述将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度的步骤中，
为了使CNN模块输出的隐向量的维度能够和多头自注意力机制的输入维度相对应，在CNN模块后接上线性层和ReLU激活函数层，将vi从维度C变换到维度dmodel，其中维度dmodel为编码阶段多头自注意力层输入向量的维度。

4.根据权利要求3所述的方法，其特征在于，所述利用基于多头的自注意力机制对提取的特征的隐向量进行编码，获得具有上下文信息的特征结果向量的步骤中，编码阶段中的一个网络块，由一个多头自注意力层和全连接层组成，整个编码器栈式堆叠了N个块，N根据具体情况决定；每个网络块中的多头自注意力层输入向量的维度dmodel＝h×dk，其中dk为每个单头自注意力层的维度，h表示多头自注意力层的头的数目；通过将输入的隐向量分解为h个部分，则每个部分的输入向量v的维度为dk。

5.根据权利要求1所述的方法，其特征在于，所述具有上下文信息的特征结果向量的具体计算方法为：
QE、KE、VE向量需要...

【专利技术属性】
技术研发人员：蔡毅，刘诤，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人