一种数学公式相似度计算方法及系统技术方案

技术编号:32221677 阅读:69 留言:0更新日期:2022-02-09 17:26
本发明专利技术公开了一种数学公式相似度计算方法及系统,涉及教育领域,该方法包括识别文本中含有的公式,并对识别得到的公式进行结构转化,得到公式的SLT树形结构和OPT树形结构;对公式的SLT树形结构构建对应的元组序列,对公式的OPT树形结构构建对应的元组序列;对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理;训练FastText n

【技术实现步骤摘要】
一种数学公式相似度计算方法及系统


[0001]本专利技术涉及教育领域,具体涉及一种数学公式相似度计算方法及系统。

技术介绍

[0002]当前在NLP(Natural Language Processing,自然语言处理)工业领域,对文本中嵌入的数学公式信息主要采用两种处理方式:一种是直接将公式和文本一起作为语料进行分词再训练,从而得到相应的词嵌入向量;另一种是将公式的特征元素映射为位置向量,通过比较两个公式之间元素位置的的相对匹配度以及重合度计算得到公式间的相似度。此外还有通过基于二叉树的数学表达式计算公式相似度的方式,例如将公式转化成二叉树结构,再进行结构与变量的归一化,最终根据公共子序列的长度来计算数学表达式之间的相似度。
[0003]但上述处理方式在计算公式间相似度时存在以下问题:1、公式大多用MathML格式或者LaTex格式来表示,如何准确抽取公式并正确的表示其内在信息是上述处理方式面临的最大难点;2、将公式直接看作文本处理,采用暴力拆解公式结构的方式可能损坏公式自身隐含的重要信息,例如公式计算存在一定的先后顺序,上述方式无法获取公式内各元素之间隐含的结构和语义信息;3、公式存在特异性且数量级巨大,传统方法在应对新公式时,无法准确的对其进行向量化表示。

技术实现思路

[0004]针对现有技术中存在的缺陷,本专利技术的目的在于提供一种数学公式相似度计算方法及系统,能够准确的对公式进行向量化表示并准确完成公式间的相似度计算。
[0005]为达到以上目的,本专利技术提供的一种数学公式相似度计算方法,具体包括以下步骤:
[0006]识别文本中含有的公式,并对识别得到的公式进行结构转化,得到公式的SLT树形结构和OPT树形结构;
[0007]对公式的SLT树形结构构建对应的元组序列,对公式的OPT树形结构构建对应的元组序列;
[0008]对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理,分别得到第一词表和第二词表;
[0009]采用第一词表和第二词表分别训练FastText n

gram模型,得到两个训练完成的词嵌入模型;
[0010]使用训练完成的词嵌入模型分别对公式进行编码,得到公式词嵌入后的SLT向量表征以及OPT向量表征;
[0011]基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量,并基于公式的向量计算得到公式间的相似度。
[0012]在上述技术方案的基础上,所述识别文本中含有的公式,具体步骤包括:
[0013]获取含有公式的文本或者HTML文件,并对文本或者HTML文件中公式的格式进行判断:
[0014]当为MathML格式时,直接对公式进行识别和提取;
[0015]当不为MathML格式时,转换为MathML格式后,再进行识别和提取。
[0016]在上述技术方案的基础上,所述对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理,分别得到第一词表和第二词表,具体步骤包括:
[0017]对公式SLT树形结构的元组序列的每一个元组均进行分词处理,基于得到的分词构成第一词表;
[0018]对公式OPT树形结构的元组序列的每一个元组均进行分词处理,基于得到的分词构成第二词表。
[0019]在上述技术方案的基础上,当对元组序列的每一个元组进行分词处理得到分词后,对每一个分词均进行唯一ID标记。
[0020]在上述技术方案的基础上,所述采用第一词表和第二词表分别训练FastText n

gram模型,得到两个训练完成的词嵌入模型,具体步骤包括:
[0021]采用第一词表对FastText n

gram模型进行训练,得到用作SLT形式的词嵌入模型;
[0022]采用第二词表对FastText n

gram模型进行训练,得到用作OPT形式的词嵌入模型。
[0023]在上述技术方案的基础上,所述使用训练完成的词嵌入模型分别对公式进行编码,得到公式词嵌入后的SLT向量表征以及OPT向量表征,具体步骤包括:
[0024]使用基于第一词表训练后得到的词嵌入模型对公式进行编码,得到公式词嵌入后的SLT向量表征;
[0025]使用基于第二词表训练后得到的词嵌入模型对公式进行编码,得到公式词嵌入后的OPT向量表征。
[0026]在上述技术方案的基础上,所述基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量,具体步骤为:
[0027]将公式的SLT向量表征和OPT向量表征进行相加处理,然后进行平均计算得到公式的向量。
[0028]在上述技术方案的基础上,所述基于公式的向量计算得到公式间的相似度,具体步骤包括:
[0029]计算得到待进行相似度计算的公式的向量;
[0030]基于待进行相似度计算的公式的向量,进行余弦相似度计算,得到公式间的相似度。
[0031]本专利技术提供的一种数学公式相似度计算系统,包括:
[0032]识别模块,其用于识别文本中含有的公式,并对识别得到的公式进行结构转化,得到公式的SLT树形结构和OPT树形结构;
[0033]构建模块,其用于对公式的SLT树形结构构建对应的元组序列,对公式的OPT树形结构构建对应的元组序列;
[0034]分词模块,其用于对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处
理,分别得到第一词表和第二词表;
[0035]训练模块,其用于采用第一词表和第二词表分别训练FastText n

gram模型,得到两个训练完成的词嵌入模型;
[0036]编码模块,其用于使用训练完成的词嵌入模型分别对公式进行编码,得到公式词嵌入后的SLT向量表征以及OPT向量表征;
[0037]计算模块,其用于基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量,并基于公式的向量计算得到公式间的相似度。
[0038]在上述技术方案的基础上,所述基于公式的向量计算得到公式间的相似度,具体过程包括:
[0039]计算得到待进行相似度计算的公式的向量;
[0040]基于待进行相似度计算的公式的向量,进行余弦相似度计算,得到公式间的相似度。
[0041]与现有技术相比,本专利技术的优点在于:通过识别文本中含有的公式,并对识别得到的公式进行结构转化,得到公式的SLT树形结构和OPT树形结构,从而实现公式的准确抽取以及公式内在信息的准确表示;通过对公式的SLT树形结构构建对应的元组序列,对公式的OPT树形结构构建对应的元组序列,对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理,分别得到第一词表和第二词表,实现公式内各元素之间隐含的结构和语义信息的获取;通过采用第一词表和第二词表分别训练FastText n

gram模型,得到两个训练完成的词嵌入模型,使用训练完成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数学公式相似度计算方法,其特征在于,具体包括以下步骤:识别文本中含有的公式,并对识别得到的公式进行结构转化,得到公式的SLT树形结构和OPT树形结构;对公式的SLT树形结构构建对应的元组序列,对公式的OPT树形结构构建对应的元组序列;对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理,分别得到第一词表和第二词表;采用第一词表和第二词表分别训练FastText n

gram模型,得到两个训练完成的词嵌入模型;使用训练完成的词嵌入模型分别对公式进行编码,得到公式词嵌入后的SLT向量表征以及OPT向量表征;基于公式的SLT向量表征以及OPT向量表征计算得到公式的向量,并基于公式的向量计算得到公式间的相似度。2.如权利要求1所述的一种数学公式相似度计算方法,其特征在于,所述识别文本中含有的公式,具体步骤包括:获取含有公式的文本或者HTML文件,并对文本或者HTML文件中公式的格式进行判断:当为MathML格式时,直接对公式进行识别和提取;当不为MathML格式时,转换为MathML格式后,再进行识别和提取。3.如权利要求1所述的一种数学公式相似度计算方法,其特征在于,所述对公式的SLT树形结构和OPT树形结构的元组序列均进行分词处理,分别得到第一词表和第二词表,具体步骤包括:对公式SLT树形结构的元组序列的每一个元组均进行分词处理,基于得到的分词构成第一词表;对公式OPT树形结构的元组序列的每一个元组均进行分词处理,基于得到的分词构成第二词表。4.如权利要求3所述的一种数学公式相似度计算方法,其特征在于:当对元组序列的每一个元组进行分词处理得到分词后,对每一个分词均进行唯一ID标记。5.如权利要求1所述的一种数学公式相似度计算方法,其特征在于,所述采用第一词表和第二词表分别训练FastText n

gram模型,得到两个训练完成的词嵌入模型,具体步骤包括:采用第一词表对FastText n

gram模型进行训练,得到用作SLT形式的词嵌入模型;采用第二词表对FastText n

gram模型进...

【专利技术属性】
技术研发人员:汤博阳邓嘉张新访
申请(专利权)人:武汉天喻信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1