一种基于Self-Attention的离线数学公式符号识别方法技术

技术编号:24170896 阅读:43 留言:0更新日期:2020-05-16 02:55
本发明专利技术公开了一种基于Self‑Attention的离线数学公式识别方法,包括:对输入的数学公式图像进行预处理;编码阶段:对数学公式图像进行特征提取;将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度;对提取的特征的隐向量进行编码,获得特征结果向量;解码阶段:依次输入字符到嵌入层,获得嵌入向量;将特征结果向量以及嵌入向量输入到网络块,获取输入字符的结果向量;获取输入字符的结果向量对应的的概率向量,找出概率向量中最大概率值索引对应的字符作为生成的字符;循环解码阶段,获得数学公式图像对应的latex字符序列。本发明专利技术仅仅使用注意力机制,不仅避免了LSTM固有的长距离依赖的问题,而且极大提升了模型的训练效率和识别准确率。

【技术实现步骤摘要】
一种基于Self-Attention的离线数学公式符号识别方法
本专利技术涉及计算机领域中的图像识别领域,尤其涉及一种基于Self-Attention的离线数学公式符号识别方法。
技术介绍
现存科技文献中的大量数学公式,保存为不容易被再次利用的形式(例如,各种公式手稿的图片),导致了很多繁杂且容易出错的重复输入工作,为了整合数学公式资源,有必要建立一种有效的机制把现存的数学公式转化成一种通用的形式,这样既可以节省重复输入数学公式的繁琐人工劳动,也能为数学公式的搜索与处理提供进一步的可能。在输入方面,纸质文档和电子文档一般可以分别通过扫描和格式转换方法转换为图片,不失一般性,通常考虑识别以图片为载体的数学公式。在输出方面,识别结果应为简单、规范且通用的数学公式表示。OCR(OpticalCharacterRecognition,光学符号识别)技术,是通过扫描等光学方式将各种报刊、书籍、文稿及其他印刷品的文字进行输入,再利用文字识别技术将图像信息转化成可以使用的计算机输入技术。OCR技术可以广泛地运用于银行票据、大量文字资料、档案卷宗、文案的录入、处理和检索等领域。数学公式识别一直是OCR中的一项重要研究内容,目的是将印刷体数学公式转换成可编辑的形式,进而实现数学公式的重用,减少工作者的编辑负担。然而,目前OCR虽然在一般文字识别上达到了较高的水平,但对数学公式的识别效果仍然不好,其主要原因在于数学公式本身结构复杂,符号也有多种变化。例如,数学表达式有上下结构、半包围结构等,公式中不仅包含阿拉伯数字、大小写英文字母和希腊字母,还包括根式、分式、上下标、极限以及矩阵等许多特殊的符号。传统的数学符号识别多采用人工提取符号特征方法,这种方法存在着以下缺点:特征提取不够准确,不能将符号很好的分类;每一次提取的特征往往只能适用于一种字体,针对性较弱,这使得能测试正确的样本的范围小,鲁棒性较差。因此迫切需要一种从多样本的学习中能够实现对图像的高层次抽象,得到数学符号更本质的形状特征,克服人为设计特征造成的不完备性,从而进一步提高公式符号识别率的方法。此外,由于各种原因,数学公式中难免存在粘连字符,粘连符号切分的正确性直接影响公式符号的正确识别。数学公式作为一种符号化的信息表达方式,在某种角度下也可以看做成一种文字。目前常见的数学公式识别主要有两类:(1)针对印刷体的数学公式识别系统;(2)针对手写体的数学公式识别系统。印刷体数学公式识别系统是把获取到的印刷文档中的数学公式图像进行识别,转换为电子文档中的公式格式;而手写体数学公式识别系统则根据获取到的输入数据分为在线手写体数学公式识别系统和离线手写体数学公式识别系统。在线的识别系统可以获取输入公式的笔画信息,并基于这些笔画信息实时地识别出输入的符号。而离线识别的输入数据则是书写完成后的数学公式图像,旨在对已经完成输入的公式的图像进行识别。传统的数学公式识别系统包括以下四个主要技术环节:公式分割,即从输入的公式数据得到各个字符数据的过程,离线形式的输入数据是公式图像,其分割就是把公式图像分成若干个只包含一个字符的子图像,而在线形式的输入数据是笔画序列,其分割就是把属于同一字符的笔画进行组合的过程。符号识别,即从字符数据中提取特征,并完成识别的结果。而传统的数字符号的识别较少使用结构方法,多使用统计方法。结构分析,即根据字符的类别和字符间的位置关系对字符的组合进行几何和语义约束,最终将所有字符进行组合,重构出公式的过程。具体的方法有通过对符号分类后分别应用相应的合并规则、递归地向两轴投影进行切分、为符号间可能的连接赋予权值然后应用最小生成树算法、估计基线结构等等。文本输出,即为将结构分析后的数学公式以可编辑的形式进行显示。目前主要有以下三种方法:MathML(MathematicalMarkupLanguage),是基于XML语言的数学标记语言。优点是代码精简、传输速度快,但编辑方法非常繁琐。目前主要应用于互联网中数学公式的编辑。WordEQ是实现复杂公式输入的Word内部域。可以使用任意字符串和表达式作为EQ域中的操作数,但语法较为复杂。LaTeX非常适用于生成高印刷质量的科技和数学类文档,不仅因为其符号库包括了大小写英文字母、阿拉伯数字、小写希腊字母、关系运算符和逻辑运算符等,也因为能够清晰地表示复杂的数学公式,因此也被广泛地应用于表达数学公式。由于数学公式本身复杂的二维结构,对公式内容的分割和解析本身就是具有挑战性的问题。而由于手写体的随意性,与印刷体数学字符相比,手写体数学字符粘连情况严重,不同字符大小不一,同一字符形状各异,这给离线手写体数学公式的分割和识别造成了诸多困难。与在线数据相比,离线数据缺少时间序列的信息,在公式的分割和识别方面也更具有挑战性。传统的公式识别方式通过公式分割、字符识别和公式分析三个阶段的处理最终完成对公式整体的识别。然而这种传统的识别方法的容错率低,三个阶段中有一个阶段出现问题就会造成识别结果的错误;同时把问题分为三个子问题再依此求解子问题最优解的方法容易出现最终求出的解非问题最优解的情况。深度学习属于机器学习研究中的一个创新领域,能通过模仿人脑来解释图像、声音和文本等数据,其优点是能够克服传统符号识别方法中手工提取特征的不足,通过构建具有多个隐含层的深度网络模型并使用大量的训练数据来学习得到更有用的特征,进而提升符号识别的准确性,其优势已在手写数字识别等应用中得到证实。而目前解决数学公式符号识别的主流深度方法主要分为三步:采用以卷积神经网络为基础的多层神经网络提取公式图像的视觉特征。采用各种处理方式在视觉特征上提取对数学公式符号识别更精细有效的特征。采用以循环神经网络为基础的多层神经网络,利用视觉注意力机制的方法,对(2)中得到的特征进一步解码以生成对应的LaTeX格式的代码。然而,上述的方法在效率和识别准确率上仍然存在着较大的缺陷:在效率方面,以传统的循环神经网络为代表的多层神经网络在训练时效率普遍较低。而在识别准确率上,当识别和训练集不同分布的数据时,识别准确率会下降很多,整体的泛化性能较弱。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于Self-Attention的离线数学公式识别方法。本专利技术采用了Self-Attention机制来进行Latex的生成,在提高了数学公式识别效率的同时,也极大地提高了数学公式识别的准确率和泛化性能。本专利技术的目的能够通过以下技术方案实现:一种基于Self-Attention的离线数学公式识别方法,其包括步骤如下:对输入的数学公式图像进行预处理;编码阶段:通过卷积神经网络对数学公式图像进行特征提取;将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度;利用基于多头的自注意力机制对提取的特征的隐向量进行编码,获得具有上下文信息的特征结果向量;解码阶段:依次输入字符到嵌入层,获得字符相应的嵌入向量;<本文档来自技高网
...

【技术保护点】
1.一种基于Self-Attention的离线数学公式识别方法,其特征在于,包括步骤:/n对输入的数学公式图像进行预处理;/n编码阶段:/n通过卷积神经网络对数学公式图像进行特征提取;/n将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度;/n利用基于多头的自注意力机制对提取的特征的隐向量进行编码,获得具有上下文信息的特征结果向量;/n解码阶段:/n依次输入字符到嵌入层,获得字符相应的嵌入向量;/n将编码阶段获得的特征结果向量以及获得的嵌入向量输入到由掩式多头自注意力层、多头注意力层和全连接层组成的网络块,获取输入字符的结果向量;/n利用softmax函数获取输入字符的结果向量对应的的概率向量,找出概率向量中最大概率值索引对应的字符作为生成的字符;/n循环解码阶段,获得数学公式图像对应的latex字符序列。/n

【技术特征摘要】
1.一种基于Self-Attention的离线数学公式识别方法,其特征在于,包括步骤:
对输入的数学公式图像进行预处理;
编码阶段:
通过卷积神经网络对数学公式图像进行特征提取;
将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度;
利用基于多头的自注意力机制对提取的特征的隐向量进行编码,获得具有上下文信息的特征结果向量;
解码阶段:
依次输入字符到嵌入层,获得字符相应的嵌入向量;
将编码阶段获得的特征结果向量以及获得的嵌入向量输入到由掩式多头自注意力层、多头注意力层和全连接层组成的网络块,获取输入字符的结果向量;
利用softmax函数获取输入字符的结果向量对应的的概率向量,找出概率向量中最大概率值索引对应的字符作为生成的字符;
循环解码阶段,获得数学公式图像对应的latex字符序列。


2.根据权利要求1所述的方法,其特征在于,所述对输入的数学公式图像进行预处理的步骤中,预处理的方法为:
对于高度大于150的图像对其进行等比例的缩小,将其高度固定为150;对于缩小后宽度不大于1200的输入图像通过扩展的方式将图像宽度取不超过150,300,450,600,750,900,1050和1200几个等级中最近的数值;对于缩小后宽度小于1200的图像,需要将该图像进行等比例的缩小,即将其宽度固定为1200。


3.根据权利要求1所述的方法,其特征在于,所述将提取的特征的隐向量转换为多头的自注意力机制输入所需的维度的步骤中,
为了使CNN模块输出的隐向量的维度能够和多头自注意力机制的输入维度相对应,在CNN模块后接上线性层和ReLU激活函数层,将vi从维度C变换到维度dmodel,其中维度dmodel为编码阶段多头自注意力层输入向量的维度。


4.根据权利要求3所述的方法,其特征在于,所述利用基于多头的自注意力机制对提取的特征的隐向量进行编码,获得具有上下文信息的特征结果向量的步骤中,编码阶段中的一个网络块,由一个多头自注意力层和全连接层组成,整个编码器栈式堆叠了N个块,N根据具体情况决定;每个网络块中的多头自注意力层输入向量的维度dmodel=h×dk,其中dk为每个单头自注意力层的维度,h表示多头自注意力层的头的数目;通过将输入的隐向量分解为h个部分,则每个部分的输入向量v的维度为dk。


5.根据权利要求1所述的方法,其特征在于,所述具有上下文信息的特征结果向量的具体计算方法为:
QE、KE、VE向量需要...

【专利技术属性】
技术研发人员:蔡毅刘诤
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1