【技术实现步骤摘要】
数学公式相似度的测量方法及其测量系统
本专利技术涉及信息检索领域,具体而言,涉及一种数学公式相似度的测量方法、数学公式相似度的测量方法的测量系统、一种计算机设备及计算机可读存储介质。
技术介绍
随着对数字化信息资源的研究不断深入,应用的层次越来越细化。以数字文档资源和网络知识库为基础的识别和检索系统,不仅需要提供浏览书籍、刊物等基本功能,还需要提供对文档内部对象的编辑加工等高级功能。这就要求系统对文档内部章节、段落等文本对象和对图表、公式等特殊对象进行定义、描述、度量以支撑功能应用。数学公式的相似度测量方法是描述两个数学公式之间相似程度的一种度量,是系统的必要组成部分。例如:在公式识别中,可以理解为识别结果与基准结果的逼近程度;在公式检索中,可用于检索对象与检索结果序列在语义上的符合程度排序等等;所以,对数学公式的相似度度量,日益成为一个重要的研究热点。现有的数学公式相似度测量方法,一般由文本的相似度度量方法演化而来,除了对形态完全一样的数学公式可做准确度量,其余结构部分匹配、语义部分匹配的情形均无良好的度量。文献“数学公式的采集、组织和检索”中采用ontology工具来描述数学表达式的运算关系、运算、运算因子、目标函数和边界符等特征项框架,将抽象的特征项构成一个向量空间,然后用底层的模板库实现匹配度量。这种方法依赖于向量空间的构成,针对较为复杂的数学公式,要把所有的数学特征全部表示出来也是一个比较繁琐的工作,实现难度较大。文献“EMERS:atreematching-basedperformanceevaluationofmathematicalexpr ...
【技术保护点】
1.一种数学公式相似度的测量方法,其特征在于,包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算所述待测量链表树及所述基准链表树的相似度,得到第一数值;判断所述第一数值是否小于1;当所述第一数值小于1时,计算所述待测量链表树的子结构与所述基准链表树的子结构的相似度,得到第二数值;比较所述第一数值及所述第二数值的大小,将所述第一数值与所述第二数值中较大的一个作为所述待测量数学公式和所述基准数学公式的相似度测量结果。
【技术特征摘要】
1.一种数学公式相似度的测量方法,其特征在于,包括:将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;计算所述待测量链表树及所述基准链表树的相似度,得到第一数值;判断所述第一数值是否小于1;当所述第一数值小于1时,计算所述待测量链表树的子结构与所述基准链表树的子结构的相似度,得到第二数值;比较所述第一数值及所述第二数值的大小,将所述第一数值与所述第二数值中较大的一个作为所述待测量数学公式和所述基准数学公式的相似度测量结果。2.根据权利要求1所述的数学公式相似度的测量方法,其特征在于,当所述第一数值不小于1时,将所述第一数值作为所述待测量数学公式与所述基准数学公式的相似度测量结果。3.根据权利要求1所述的数学公式相似度的测量方法,其特征在于,计算所述待测量链表树及所述基准链表树的相似度,具体包括以下步骤:获取所述待测量链表树的原子节点集合及所述基准链表树的原子节点集合;计算所述待测量链表树的原子节点集合与所述基准链表树的原子节点集合中原子节点的匹配数Nmatchnodes;计算相互匹配的所述待测量链表树的原子节点与所述基准链表树的原子节点的语义相似度δmatchnode;获取所述待测量链表树的连接边集合及所述基准链表树的连接边集合;计算所述待测量链表树的连接边集合与所述基准链表树的连接边集合中连接边的匹配数Nmatchedges;根据第一计算公式计算所述待测量链表树及所述基准链表树的相似度;其中,所述第一计算公式为:Nbasenodes为所述基准链表树的原子节点数,Nbaseedges所述基准链表树的连接边数。4.根据权利要求3所述的数学公式相似度的测量方法,其特征在于,所述待测量链表树的原子节点与所述基准链表树的原子节点匹配,具体指:以原子节点所在链表树的第一原子节点为起点,按照相同的空间连接关系,可以到达该原子节点。5.根据权利要求3所述的数学公式相似度的测量方法,其特征在于,所述待测量链表树的连接边与所述基准链表树的连接边的匹配,具体指:所述待测量链表树的连接边与所述基准链表树的连接边相对于所属链表树具有相同的空间位置关系。6.根据权利要求3所述的数学公式相似度的测量方法,其特征在于,相互匹配的所述待测量链表树的原子节点与所述基准链表树的原子节点的语义相似度δmatchnode,具体指:首先确定所述待测量链表树的原子节点与所述基准链表树的原子节点的类型,判断其是否相同,如果类型不同,则所述原子节点的语义相似度为δmatchnode=0,否则,继续进行如下计算:如果所述待测量链表树的原子节点与所述基准链表树的原子节点类型为数字符号或者变量符号,则所述原子节点的语义相似度δmatchnode为标量符号相似度;如果所述待测量链表树的原子节点与所述基准链表树的原子节点类型为运算符号,则所述原子节点的语义相似度δmatchnode为运算符号相似度。7.根据权利要求6所述的数学公式相似度的测量方法,其特征在于,所述标量符号相似度,具体为:当所述标量符号的符号表示完全相同时,所述标量符号相似度为1;当所述标量符号的符号表示数目相同时,所述标量符号相似度为标量符号相似度系数;当所述标量符号的符号表示数目不同时,则按数目差值比率×标量符号相似度系数计算所述标量符号相似度。8.根据权利要求6所述的数学公式相似度的测量方法,其特征在于,所述运算符号相似度,具体为:当所述运算符号具有相同的符号类型且符号表示完全相同时,所述运算符号相似度为1,否则,所述运算符号相似度为0;其中,所述运算符号包括:一般运算符号、包容运算符号及分数运算符。9.根据权利要求1所述的数学公式相似度的测量方法,其特征在于,计算所述待测量链表树的子结构与所述基准链表树的子结构的相似度,得到第二数值,具体包括以下步骤:按照链表树的子结构提取原则,分别获取所述待测量链表树的子结构集合及所述基准链表树的子结构集合;将所述基准链表树的子结构集合中每一个子结构按照顺序进行编号;将所述待测量链表树的子结构集合中每一个子结构按照顺序进行编号;顺序依次选取所述待测量链表树的子结构集合中每一个子结构;分别计算选中的所述待测量链表树的子结构与所述基准链表树的子结构集合中每一个子结构的相似度,得到多个计算结果;选取所述多个计算结果中较大的一个作为第二数值;其中,所述子结构提取原则为:从其所在的链表树的开始根节点到末叶子节点的次序顺次进行选取。10.根据权利要求9所述的数学公式相似度的测量方法,其特征在于,分别计算选中的所述待测量链表树的子结构与所述基准链表树的每一个子结构的相似度,得到多个计算结果,具体包括以下步骤:计算选中的所述待测量链表树的子结构的原子节点集合与所述基准链表树的子结构的原子节点集合中原子节点的匹配数Nmatchnodes;计算选中的所述待测量链表树的子结构的原子节点与所述基准链表树的子结构的原子节点的语义相似度δmatchnode;获取选中的所述待测量链表树的子结构的连接边集合与所述基准链表树的子结构的连接边集合;计算选中的所述待测量链表树的子结构的连接边与所述基准链表树的子结构的连接边的匹配数Nmatchedges;根据第二计算公式计算选中的所述待测量链表树的子结构及所述基准链表树的子结构的相似度,得到计算结果;其中,所述第二计算公式为:Ntotalnodes表示所述基准链表树的原子节点数,Nbasenodes表示所述基准链表树的子结构的原子节点数。11.一种数学公式相似度的测量系统,其特征在于,包括:第一处理单元,用于将待测量数学公式和基准数学公式分别表示为待测量链表树和基准链表树;第一计算单元,用于计算所述待测量链表树及所述基准链表树的相似度,得到第一数值;第一判断单元,用于判断所述第一数值是否小于1;所述第一计算单元还用于,当所述第一数值小于1时,计算所述待测量...
【专利技术属性】
技术研发人员:颜钦钦,高良才,汤帜,
申请(专利权)人:北大方正集团有限公司,北大方正信息产业集团有限公司,北京大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。