一种数学公式的识别方法、装置及设备制造方法及图纸

技术编号:24855414 阅读:20 留言:0更新日期:2020-07-10 19:08
本发明专利技术属于光学字符识别领域,具体涉及一种数学公式的识别方法、装置及设备;所述方法包括获取待识别的数学公式图片,并对其进行预处理;采用LeNet分类器从待识别的数学公式图片中区分出多行数学公式图片和单行数学公式图片;将多行数学公式图片经过投影的方式切割为多个单行数学公式图片;对所有的单行数学公式图片分割为单个的数学字符图片;采用神经网络识别出每个数学字符图片的种类;利用改进的基线识别方法识别出单个数学字符之间的相对位置;并形成待识别的数学公式图片的语义树,将语义树解析成latex语言并输出。本发明专利技术具有识别公式字符识别率较高,结构识别较完整的优点。

【技术实现步骤摘要】
一种数学公式的识别方法、装置及设备
本专利技术属于光学字符识别领域,涉及结合深度学习和规则学习的方法识别数学公式识别,本专利技术旨在提供一种字符识别准确率和公式识别准确率都较高的公式识别的方法;具体为一种数学公式的识别方法、装置及设备。
技术介绍
光学字符识别(OpticalCharacterRecognition,OCR)技术经过几十年的发展,在国内外相继出现了一系列比较成熟的产品,例如清华紫光OCR、汉王OCR、赛酷OCR以及国外的泰比OCR等。这些OCR产品技术对印刷体书籍或文档中所包含的中英文以及阿拉伯数字的识别已经达到了很高的水平,但还不能很好地将数学公式识别出来。主要的原因包括:数学公式与常规字符相比,具有复杂的二维结构;数学公式中所包含的符号种类繁多且大小不一;数学公式中符号与符号之间的关系也比较复杂。大多数的科技文献中往往都会含有许多不同种类的数学公式,而这些公式往往又是以图片的形式保存在这些科技文献中。这样就会产生两方面的问题:一是增加了存储和传输的开销;二是无法实现公式的重用。所以如何准确、高效地从印刷体书籍图像中识别出数学公式,成为目前数学书籍识别系统的设计与实现的一个难点问题。利用深度学习来实现公式识别,识别公式图片分割后的单个字符,是目前较为高效的识别字符的方法。数学公式识别技术的研究不仅可以实现数学公式的重用、降低公式图像存储和传输的代价,而且可以提高系统整体的识别质量,扩展OCR的功能,对科技信息资源的传播与建设具有重要意义。现在利用深度学习进行数学公式识别的方法主要有两种。一方面是将数学公式识别的问题被转换为机器翻译中的序列到序列的问题,从(Xu,Kelvin,etal.“Show,attendandtell:Neuralimagecaptiomgeneratewithvisualattention.”InternationalConferenceonMachineLearning2015)到(DengYuntian,AnssiKanervisto,andAlexanderM.Rush"WhatYouGetIsWhatYouSee:AVisaulMarkupDecomplier".arXivpreprintarXiv:1609.04938(2016)),再到(XuK,BaJ,KirosR,etal.Show,AttendandTell:NeuralImageCaptionGenerationwithVisualAttention[J].ComputerScience,2015:2048-2057.),通过序列识别,从而识别出数学公式。另一方面,现有的方法应用卷积神经网络(CNN,Convolutionalneuralnetwork)作为编码器提取图片的结构特征,用循环递归神经网络(RNN,Recurrentrecurrentneuralnetwork)作为解码器后,将特征向量经过注意力机制,之后再通过光束搜索方法或者贪心算法,将神经网络输出的特征向量映射为Latex语言。这种方法虽然不需要进行切割,也不需要手动提取数学字符特征了,但是由于整张数学公式图片大小不一,细节丰富,经过进入神经网络之前的预处理可能带来数学公式的巨大形变,导致在字符识别上存在漏识和误识的可能。而且通过端到端识别数学公式的方法,需要大量的训练数据集,其训练过程十分困难,并且字符识别率不高,使得整个模型的鲁棒性不强,当识别的图片与数据集有差距的时候,识别结果与其真实结果误差较大。传统的多步识别数学公式的方法在对数学公式进行预处理之后,利用投影或者连通域切割的方法对数学公式图片进行切割,应用SVM方法或者手工提取特征的方法设计分类器,识别数学公式字符之后,利用坐标的位置关系,判断字符之间的相对位置,从而识别数学公式,最后识别成可编辑的Latex,或者是XML语言。其中重构数学公式结构的步骤十分关键,现有方法主要包括通过坐标信息构建三叉树作为数学公式结构的语义树;手动提取字符图片的特征训练混合高斯模型等识别结构;应用模糊数学的原理,统计大量公式的结构特征继而来识别数学公式结构;构建数学公式中心基准线的方法来识别数学公式。但总体而言,以上方法都有其局限性,对于构建符号中心基准线方式的识别方法,以当前利用率较高的识别方式(ZhangX,GaoL,YuanK,etal.ASymbolDominanceBasedFormulaeRecognitionApproachforPDFDocuments[C]//201714thIAPRInternationalConferenceonDocumentAnalysisandRecognition(ICDAR).IEEEComputerSociety,2017.)为例,利用基准线方式的识别方法首先要确定开始符号,开始符号一般被认为是公式中最左边的字符,但整个数学公式的最左边的字符并不能确定整个公式的中心基准线,就可能导致中心基准线确定错误,就会将整个公式结构识别错误。
技术实现思路
为了解决现在多步骤识别数学公式的方法中的不足,本专利技术提出一种数学公式的识别方法、装置及设备,主要基于深度学习与改进的基线方法识别数学公式,不仅扩展了可识别的数学公式的种类,能够识别出数学公式是单行还是多行数学公式,对多行数学公式进行投影切割去除边界符号之后,变为单行数学公式后分割为数学字符,从而进行统一的字符识别;针对现有字符识别的准确率不高的现状,根据字符图片的的特点,设计神经网络结构作为字符图片的分类器,提高字符识别的准确率。对于现有数学公式结构重构的方法中,出现的漏识误识的情况,提出一种改进基线识别数学公式的方法。制定针对性的语义规则确定公式的基准符号,对基线上的表达式进行判断组合的表达式图片充分利用运算符号的作用域固定的特点,识别主基线上的字符与其他基线上的表达式之间的位置关系,既而识别数学公式的结构,最终解析成Latex语言输出识别结果。具体的,在本专利技术的第一方面,本专利技术提出了一种数学公式的识别方法;所述方法包括:获取待识别的数学公式图片,并对其进行预处理;采用LeNet分类器从待识别的数学公式图片中区分出多行数学公式图片和单行数学公式图片;将多行数学公式图片经过投影的方式切割为多个单行数学公式图片;对所有的单行数学公式图片分割为单个的数学字符图片;采用神经网络识别出每个数学字符图片的种类;利用改进的基线识别方法识别出单个数学字符图片之间的相对位置,并形成待识别的数学公式图片的语义树;解析语义树转换为LaTeX格式,并输出待识别的数学公式图片的识别结果。在本专利技术的第二方面,本专利技术提出了一种数学公式的识别装置,包括:采集模块,用于采集待识别的数学公式图片;预处理模块,用于对待识别的数学公式图片进行预处理;图片切割模块,用于将多行的数学公式图片切割为单行的数学公式图片;图片分割模块,用于将单行的数学公式图片分割为单个的数学字符图片;第一分类器,采用LeNet网络结构从本文档来自技高网
...

【技术保护点】
1.一种数学公式的识别方法,其特征在于,包括:/n获取待识别的数学公式图片,并对其进行预处理;/n采用LeNet分类器从待识别的数学公式图片中区分出多行数学公式图片和单行数学公式图片;/n将多行数学公式图片经过投影的方式切割为多个单行数学公式图片;/n对所有的单行数学公式图片分割为单个的数学字符图片;/n采用神经网络识别出每个数学字符图片的种类;/n利用改进的基线识别方法识别出单个数学字符图片之间的相对位置,并形成待识别的数学公式图片的语义树;/n将语义树解析成为Latex语言,并输出待识别的数学公式图片的识别结果。/n

【技术特征摘要】
1.一种数学公式的识别方法,其特征在于,包括:
获取待识别的数学公式图片,并对其进行预处理;
采用LeNet分类器从待识别的数学公式图片中区分出多行数学公式图片和单行数学公式图片;
将多行数学公式图片经过投影的方式切割为多个单行数学公式图片;
对所有的单行数学公式图片分割为单个的数学字符图片;
采用神经网络识别出每个数学字符图片的种类;
利用改进的基线识别方法识别出单个数学字符图片之间的相对位置,并形成待识别的数学公式图片的语义树;
将语义树解析成为Latex语言,并输出待识别的数学公式图片的识别结果。


2.根据权利要求1所述的一种数学公式的识别方法,其特征在于,对待识别的数学公式图片进行预处理包括采用大律法对待识别的数学公式图片进行二值化;采用中值滤波器去除所述待识别的数学公式图片中的噪声以及采用倾斜校正方式对所述待识别的数学公式图片进行图像校正。


3.根据权利要求1所述的一种数学公式的识别方法,其特征在于,所述采用LeNet分类器从待识别的数学公式图片中区分出多行数学公式图片和单行数学公式图片包括采集多行数学公式图片训练集和单行数学公式图片训练集;采用LeNet网络结构对多行数学公式图片训练集和单行数学公式图片训练集进行训练;训练完成后,形成LeNet分类器;在LeNet分类器中输入预处理后的待识别的数学公式图片,输出分类后的多行数学公式图片和单行数学公式图片。


4.根据权利要求1所述的一种数学公式的识别方法,其特征在于,所述将多行数学公式图片经过投影的方式切割为多个单行数学公式图片包括将多行数学公式图片水平向右投影,按行切割后,去除多行数学公式图片的边界符号;将其切分为多个单行数学公式图片。


5.根据权利要求1所述的一种数学公式的识别方法,其特征在于,所述对所有的单行数学公式图片分割为单个的数学字符图片包括利用连通域切割为多个单个数学字符图片;确定每个数学字符图片的坐标属性;并计算出每个数学字符图片的质心坐标。


6.根据权利要求1所述的一种数学公式的识别方法,其特征在于,所述采用神经网络识别出每个数学字符图片的种类包括获取预先采集的单个数学字符图片训练集,通过分割获得每个数学字符图片的平均尺寸,确定神经网络中的卷积核的大小;采用该神经网络对单个数学字符图片训练集进行训练,训练完成后,采用神经网络确定出分割后的单个数学字符图片的类别;所述神经网络包括输入层、多个卷积层和多个全连接层;其中,根据数学字符图片训练集中的字符图片的平均尺寸的大小确定各个卷积层中卷积核的大小;根据数学字符图片的种类数确定全连接层...

【专利技术属性】
技术研发人员:黄胜贾艳秋田朝阳
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1