数学公式相似度的测量方法及其测量系统技术方案

技术编号:21432144 阅读:19 留言:0更新日期:2019-06-22 11:54
本发明专利技术提出了一种数学公式相似度的测量方法及其测量系统,其中数学公式相似度的测量方法包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算待测量链表树及基准链表树的相似度,得到第一数值;判断第一数值是否小于1;当第一数值小于1时,计算待测量链表树的子结构与基准链表树的子结构的相似度,得到第二数值;比较第一数值及第二数值的大小,将第一数值与第二数值中较大的一个作为待测量数学公式和基准数学公式的相似度测量结果。本发明专利技术提供的数学公式相似度的测量方法相比较于以往基于文本相似的测量方式,具有更好的可信度。

【技术实现步骤摘要】
数学公式相似度的测量方法及其测量系统
本专利技术涉及信息检索领域,具体而言,涉及一种数学公式相似度的测量方法、数学公式相似度的测量方法的测量系统、一种计算机设备及计算机可读存储介质。
技术介绍
随着对数字化信息资源的研究不断深入,应用的层次越来越细化。以数字文档资源和网络知识库为基础的识别和检索系统,不仅需要提供浏览书籍、刊物等基本功能,还需要提供对文档内部对象的编辑加工等高级功能。这就要求系统对文档内部章节、段落等文本对象和对图表、公式等特殊对象进行定义、描述、度量以支撑功能应用。数学公式的相似度测量方法是描述两个数学公式之间相似程度的一种度量,是系统的必要组成部分。例如:在公式识别中,可以理解为识别结果与基准结果的逼近程度;在公式检索中,可用于检索对象与检索结果序列在语义上的符合程度排序等等;所以,对数学公式的相似度度量,日益成为一个重要的研究热点。现有的数学公式相似度测量方法,一般由文本的相似度度量方法演化而来,除了对形态完全一样的数学公式可做准确度量,其余结构部分匹配、语义部分匹配的情形均无良好的度量。文献“数学公式的采集、组织和检索”中采用ontology工具来描述数学表达式的运算关系、运算、运算因子、目标函数和边界符等特征项框架,将抽象的特征项构成一个向量空间,然后用底层的模板库实现匹配度量。这种方法依赖于向量空间的构成,针对较为复杂的数学公式,要把所有的数学特征全部表示出来也是一个比较繁琐的工作,实现难度较大。文献“EMERS:atreematching-basedperformanceevaluationofmathematicalexpressionrecognitionsystems”中采用树结构的方式表示公式,通过引入欧拉字符串的定义,将数学公式转化为一维字符串表示,然后使用字符串的编辑距离进行度量。这种方法稀释了数学公式的语义和结构信息,置信度较低。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术第一方面提出了一种数学公式相似度的测量方法。本专利技术第二方面提出了一种数学公式相似度的测量方法的测量系统。本专利技术第三方面提出了一种计算机设备。本专利技术第四方面提出了一种计算机可读存储介质。有鉴于此,本专利技术第一方面提出了一种数学公式相似度的测量方法,包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算待测量链表树及基准链表树的相似度,得到第一数值;判断第一数值是否小于1;当第一数值小于1时,计算待测量链表树的子结构与基准链表树的子结构的相似度,得到第二数值;比较第一数值及第二数值的大小,将第一数值与第二数值中较大的一个作为待测量数学公式和基准数学公式的相似度测量结果。本专利技术提供的数学公式相似度的测量方法先将待测量数学公式及基准数学公式分别表示为待测量链表数及基准链表树,然后计算待测量链表树与基准链表树的相似度,获得第一数值,当第一数值小于1时,表示待测量数学公式与基准数学公式不相同,此时计算待测量链表树的子结构与基准链表树的子结构的相似度,获得第二数值,进一步地,比较第一数值及第二数值的大小,当第一数值大于第二数值时,将第一数值作为待测量数学公式和基准数学公式的相似度测量结果,当第一数值小于等于第二数值时,将第二数值作为待测量数学公式和基准数学公式的相似度测量结果,整个测量过程不仅可以对形态完全一样的数学公式做出准确的度量,还可以在部分匹配、语义部分匹配的情况下对数学公式之间的相似度进行准确测量,相比较于以往基于文本相似的测量方式,具有更好的可信度,特别地,第一数值与第二数值均不大于1。根据本专利技术上述的数学公式相似度的测量方法,还可以具有以下附加技术特征:在上述技术方案中,优选地,当第一数值不小于1时,将第一数值作为待测量数学公式与基准数学公式的相似度测量结果。在该技术方案中,当第一数值不小于1时,表示待测量数学公式与基准数学公式完全一致,直接将第一数值作为待测量数学公式和基准数学公式的相似度测量结果即可,特别地,此时第一数值为1。在上述任一技术方案中,优选地,计算待测量链表树及基准链表树的相似度,具体包括以下步骤:获取待测量链表树的原子节点集合及基准链表树的原子节点集合;计算待测量链表树的原子节点集合与基准链表树的原子节点集合中原子节点的匹配数Nmatchnodes;计算相互匹配的待测量链表树的原子节点与基准链表树的原子节点的语义相似度δmatchnode;获取待测量链表树的连接边集合及基准链表树的连接边集合;计算待测量链表树的连接边集合与基准链表树的连接边集合中连接边的匹配数Nmatchedges;根据第一计算公式计算待测量链表树与基准链表树的相似度;其中,第一计算公式为:Nbasenodes为基准链表树的原子节点数,Nbaseedges基准链表树的连接边数。在该技术方案中,首先获取待测量链表树及基准链表树的原子节点集合,其中,基准链表树的原子节点集合中原子节点的数目为Nbasenodes,待测量链表树的原子节点集合中原子节点的数目为Nbaseedges,然后将待测量链表树的原子节点集合中的每一个原子节点与基准链表树的原子节点集合中的每一个原子节点进行比较,得到相互匹配的原子节点的数目为Nmatchnodes,进而计算相互匹配的原子节点的语义相似度δmatchnode;进一步地,获取待测量链表树与基准链表树的连接边集合,然后对待测量链表树的连接边集合与基准链表树的连接边集合中每一个连接边进行比较,得到连接边的匹配数为Nmatchedges,然后根据第一计算公式可以计算出待测量链表树与基准链表树之间的相似度,得到第一数值,具体地,该第一数值小于等于1,从而通过第一数值判断出待测量数学公式与基准数学公式之间的相似度,得到准确的相似度计算结果。值得注意的是,将待测量链表树的原子节点集合中的每一个原子节点与基准链表树的原子节点集合中的每一个原子节点进行比较时,其时间复杂度为Nbasenodes×Nquerynodes,在此过程中,同一个原子节点允许进行多个匹配,但是最终只可以建立一个匹配关系,而链表树按照公式语义顺序,先父节点、后左子节点、再右子节点的顺序所生成相对应的原子节点集合。在上述任一技术方案中,优选地,待测量链表树的原子节点与基准链表树的原子节点匹配,具体指:以原子节点所在链表树的第一原子节点为起点,按照相同的空间连接关系,可以到达该原子节点。在该技术方案中,基准链表树中的一个原子节点从基准链表树的第一个原子节点出发,按照一定的连接边顺序可以到达这个原子节点,而待测量链表树中的一个原子节点从待测量链表树的第一个原子节点出发,按照相同或相似的连接边顺序也可以达到这个原子节点,则认为这两个原子节点是相互匹配的,否则不是匹配的。具体地,连接边可以分为后连接、上标、下标及包容等类型,链表树由原子节点和连接边组成,上标、下标及包容的连接边关系会将链表树拆分出多级层次子结构,而后连接的原子节点是属于同一层级的,具有后连接关系的同一层级的原子节点集合相对于集合中首个原子节点的上一级原子节点来说是具有相似的连接边关系的。在上述任一技术方案中,优选地,待测量链表树的连接边与基准链表树的连接边的匹配,具体指:待测量链表树的连接边与基准链表树的连接边本文档来自技高网
...

【技术保护点】
1.一种数学公式相似度的测量方法,其特征在于,包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算所述待测量链表树及所述基准链表树的相似度,得到第一数值;判断所述第一数值是否小于1;当所述第一数值小于1时,计算所述待测量链表树的子结构与所述基准链表树的子结构的相似度,得到第二数值;比较所述第一数值及所述第二数值的大小,将所述第一数值与所述第二数值中较大的一个作为所述待测量数学公式和所述基准数学公式的相似度测量结果。

【技术特征摘要】
1.一种数学公式相似度的测量方法,其特征在于,包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算所述待测量链表树及所述基准链表树的相似度,得到第一数值;判断所述第一数值是否小于1;当所述第一数值小于1时,计算所述待测量链表树的子结构与所述基准链表树的子结构的相似度,得到第二数值;比较所述第一数值及所述第二数值的大小,将所述第一数值与所述第二数值中较大的一个作为所述待测量数学公式和所述基准数学公式的相似度测量结果。2.根据权利要求1所述的数学公式相似度的测量方法,其特征在于,当所述第一数值不小于1时,将所述第一数值作为所述待测量数学公式与所述基准数学公式的相似度测量结果。3.根据权利要求1所述的数学公式相似度的测量方法,其特征在于,计算所述待测量链表树及所述基准链表树的相似度,具体包括以下步骤:获取所述待测量链表树的原子节点集合及所述基准链表树的原子节点集合;计算所述待测量链表树的原子节点集合与所述基准链表树的原子节点集合中原子节点的匹配数Nmatchnodes;计算相互匹配的所述待测量链表树的原子节点与所述基准链表树的原子节点的语义相似度δmatchnode;获取所述待测量链表树的连接边集合及所述基准链表树的连接边集合;计算所述待测量链表树的连接边集合与所述基准链表树的连接边集合中连接边的匹配数Nmatchedges;根据第一计算公式计算所述待测量链表树及所述基准链表树的相似度;其中,所述第一计算公式为:Nbasenodes为所述基准链表树的原子节点数,Nbaseedges所述基准链表树的连接边数。4.根据权利要求3所述的数学公式相似度的测量方法,其特征在于,所述待测量链表树的原子节点与所述基准链表树的原子节点匹配,具体指:以原子节点所在链表树的第一原子节点为起点,按照相同的空间连接关系,可以到达该原子节点。5.根据权利要求3所述的数学公式相似度的测量方法,其特征在于,所述待测量链表树的连接边与所述基准链表树的连接边的匹配,具体指:所述待测量链表树的连接边与所述基准链表树的连接边相对于所属链表树具有相同的空间位置关系。6.根据权利要求3所述的数学公式相似度的测量方法,其特征在于,相互匹配的所述待测量链表树的原子节点与所述基准链表树的原子节点的语义相似度δmatchnode,具体指:首先确定所述待测量链表树的原子节点与所述基准链表树的原子节点的类型,判断其是否相同,如果类型不同,则所述原子节点的语义相似度为δmatchnode=0,否则,继续进行如下计算:如果所述待测量链表树的原子节点与所述基准链表树的原子节点类型为数字符号或者变量符号,则所述原子节点的语义相似度δmatchnode为标量符号相似度;如果所述待测量链表树的原子节点与所述基准链表树的原子节点类型为运算符号,则所述原子节点的语义相似度δmatchnode为运算符号相似度。7.根据权利要求6所述的数学公式相似度的测量方法,其特征在于,所述标量符号相似度,具体为:当所述标量符号的符号表示完全相同时,所述标量符号相似度为1;当所述标量符号的符号表示数目相同时,所述标量符号相似度为标量符号相似度系数;当所述标量符号的符号表示数目不同时,则按数目差值比率×标量符号相似度系数计算所述标量符号相似度。8.根据权利要求6所述的数学公式相似度的测量方法,其特征在于,所述运算符号相似度,具体为:当所述运算符号具有相同的符号类型且符号表示完全相同时,所述运算符号相似度为1,否则,所述运算符号相似度为0;其中,所述运算符号包括:一般运算符号、包容运算符号及分数运算符。9.根据权利要求1所述的数学公式相似度的测量方法,其特征在于,计算所述待测量链表树的子结构与所述基准链表树的子结构的相似度,得到第二数值,具体包括以下步骤:按照链表树的子结构提取原则,分别获取所述待测量链表树的子结构集合及所述基准链表树的子结构集合;将所述基准链表树的子结构集合中每一个子结构按照顺序进行编号;将所述待测量链表树的子结构集合中每一个子结构按照顺序进行编号;顺序依次选取所述待测量链表树的子结构集合中每一个子结构;分别计算选中的所述待测量链表树的子结构与所述基准链表树的子结构集合中每一个子结构的相似度,得到多个计算结果;选取所述多个计算结果中较大的一个作为第二数值;其中,所述子结构提取原则为:从其所在的链表树的开始根节点到末叶子节点的次序顺次进行选取。10.根据权利要求9所述的数学公式相似度的测量方法,其特征在于,分别计算选中的所述待测量链表树的子结构与所述基准链表树的每一个子结构的相似度,得到多个计算结果,具体包括以下步骤:计算选中的所述待测量链表树的子结构的原子节点集合与所述基准链表树的子结构的原子节点集合中原子节点的匹配数Nmatchnodes;计算选中的所述待测量链表树的子结构的原子节点与所述基准链表树的子结构的原子节点的语义相似度δmatchnode;获取选中的所述待测量链表树的子结构的连接边集合与所述基准链表树的子结构的连接边集合;计算选中的所述待测量链表树的子结构的连接边与所述基准链表树的子结构的连接边的匹配数Nmatchedges;根据第二计算公式计算选中的所述待测量链表树的子结构及所述基准链表树的子结构的相似度,得到计算结果;其中,所述第二计算公式为:Ntotalnodes表示所述基准链表树的原子节点数,Nbasenodes表示所述基准链表树的子结构的原子节点数。11.一种数学公式相似度的测量系统,其特征在于,包括:第一处理单元,用于将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;第一计算单元,用于计算所述待测量链表树及所述基准链表树的相似度,得到第一数值;第一判断单元,用于判断所述第一数值是否小于1;所述第一计算单元还用于,当所述第一数值小于1时,计算所述待测量...

【专利技术属性】
技术研发人员:颜钦钦高良才汤帜
申请(专利权)人:北大方正集团有限公司北大方正信息产业集团有限公司北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1