【技术实现步骤摘要】
一种基于Transformer的中文环境数学公式提取及识别方法
[0001]本专利技术涉及计算机视觉领域和自然语言处理领域,尤其涉及一种基于 Transformer的中文环境数学公式提取及识别方法,是一种计算机视觉结合自然语言处理中的Transformer的方法,把网络结构与Transformer相结合。提高公式提取和识别的准确率,并通过可视化界面对提取内容以及结果可视化。
技术介绍
[0002]随着互联网技术的不断推进发展,人们的办公需求也在不断的提升。网上办公更是成为了人们的常态,在网络办公中使用最广泛的可以说就是PDF文档了。PDF是Adobe公司开发的用于发布和存储电子信息的、全球通用的一种文档格式。它能使得使用者无论在哪种打印机上都可以保证精确和准确的打印效果。为了实现这个效果PDF文档中包涵了大量的渲染信息。这也使得原本的内容因为PDF格式的原因保存形式出现差异,就比如一份公式在PDF文档中可能是由文本形式存储,也很有可能作为图片形式保存。这样的保存形式方便了我们打印,但在我们的学习生活中总会遇到想把PDF中的一 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer的中文环境数学公式提取及识别方法,其特征在于,包括以下步骤:1)在中文环境下将含有数学公式的图片输入数学公式掩模提取模块,经过该模块的提取获得含有数学公式的掩模,在该掩模中仅保留了数学公式部分而剔除了其他位置的文字部分;2)经过步骤1)处理后得到的含有数学公式的掩模输入进入数学公式图片提取模块,该模块通过形态学方法对掩模中的数学公式位置进行进一步的修补以及完善,最后再根据修复后的掩模生成数学公式图片;3)将步骤2)处理后的数学公式图片输入进入转换展示模块,经过该模块处理得到该公式的Latex,并通过Katex再生成数学公式图片进行展示和对比。2.根据权利要求1所述的一种基于Transformer的中文环境数学公式提取及识别方法,其特征在于,所述的步骤1)为:1.1)将一组含有数学公式的中文环境图片X作为输入,经过数据强化保证每个图片的大小是512
×
512,并且是灰度图像,输入的通道数是1;1.2)构建数学公式提取模型,模型结构分成两部分,一部分是卷积下采样的部分,通过下采样提取出图片的高维特征,另一部分是以提取出的高维特征为基础进行上采样对图片进行重建;经过损失函数的向导,该模型能够滤去文字信息,但又保留公式;1.3)下采样把输入图像X输入进若干个卷积层,每一个卷积层是由卷积计算、激活函数、BatchNormaliztion归一化三步骤组成,每通过一次卷积层得到的特征图,是能代表图片特征的高维特征向量,经过一个个卷积层最后得到大小1
×
1的特征图,通道数n;1.4)对1.3)得到的高维特征向量转换为二维矩阵,维度H
×
W
×
C转换成(H
×
W)
×
C,即得到1
×
n的矩阵,将这n个通道值看做一个长为n的序列,并把这个序列输入进入自然语言处理模型Transformer中进行编码,进一步提取特征;1.5)Transformer对输入的序列先进行位置编码,得到的数据再进行多头注意力机制计算,以多个注意力进行单独计算,然后将各个注意力机制获取的结果进行拼接处理,得到结果;再对多头注意力机制的输入和输出进行相加和LayerNorm的归一化处理,然后输入进前馈神经网络,得到结果再与前馈神经网络的输入相加并进行LayerNorm的归一化处理;1.6)1.5)的操作是Transformer编码器中的一个Block模块,依次经过多个Block模块,对特征进行进一步提取得到1
×
n的特征矩阵,再将该特征矩阵再转换为高维特征向量,即1
×1×
n大小;1.7)进行上采样重建,把从1.6)得到的高维特征数据以及下采样时各个卷积层得到的特征图都输入反卷积层中,反卷积层的数量与卷积层一样并且层层对应,结构是由转置卷积、激活函数、BatchNormaliztion归一化组成;在输入每个反卷积层之前,通过跳连接把该反卷积层对应的卷积层所得到的下采样特征图进行拼接并输入,最终通过上采样把特征矩阵1
×1×
n恢复成512
×
512的灰度图像;1.8)经过1.1)到1.7)模型的计算,需要得到含有数学公式位置的mask,采用由Tversky Loss及改进focal loss两部分构成的损失函数
其中TP指的是模型判断正确并且预测的位置中是真实数学公式的像素点数量,FN指的是模型判断错误但是预测的位置是真实数学公式的像素点数量,FP指的是模型判断错误但是预测的位置也不是真实数学公式的像素点数量,IOU指的是模型预测的数学公式面积和真实数学公式面积的交集除以并集;α、β、γ为超参数;1.9)根据1.8)的损失函数训练过模型后,在输入含有数学公式的中文图片后,通过模型计算可以得到一张大小与原图一样的掩模,该掩模中仅保留了数学公式部分而剔除了其他位置的文字部分。3.根据权利要求1所述的一种基于Transformer的中文环境数学公式提取及识别方法,其特征在于,所述的步骤2)为:2.1)经步骤1)得到图像的含数学公式的掩模后,通过opencv算法从掩模中提取出各个公式用于识别模块输入,首先对得到的掩模图像先进行形态学的侵蚀计算,让掩模连通区域之间贯通;2.2)经过形态学处理后的图像,把其中的像素向垂直方向做投影,设置阈值Vε,当连续的投影之间的距离小于Vε,则认为这是同一个公式的一部分,进行投影之间的合并,当投影之间的距离大于Vε,则认为这是不同的公式,把投影的距离即图像垂直像素段存入数组Vproj;2.3)得到垂直像素段数组Vproj后,对图像进行垂直方向的分割。根据每个垂直像素段把图像分隔为size(Vproj)个图像,然后把每个垂直...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。