一种考虑概念间关系的语义相关度计算方法技术

技术编号:16755564 阅读:37 留言:0更新日期:2017-12-09 02:05
本发明专利技术公开了一种考虑概念间关系的语义相关度计算方法,在基本相似度计算方法的基础上,结合两个概念之间共同具有关系计算出来的语义度以及两个概念之间独自具有的关系计算出来的语义度,得到最终的语义相关度计算值。本发明专利技术提出的语义相关度计算方法充分考虑了两个概念之间的关系,具有相同属性以及各自具有的独特属性,均在计算中得以体现,更接近人的判定结果,计算结果更准确。

A semantic correlation calculation method considering the relationship between concepts

The invention discloses a semantic relevance calculation method considering the relationship between concepts, methods of calculating the similarity in basic, combination between the two concepts is calculated with the relationship between the calculated by the relationship between semantic degree and two semantic concepts, get the final value of semantic relativity calculation. The semantic correlation calculation method proposed by the present fully considers the relationship between the two concepts, and has the same attributes and their unique attributes, which are all reflected in the calculation, closer to the human decision results, and the calculation results are more accurate.

【技术实现步骤摘要】
一种考虑概念间关系的语义相关度计算方法
本专利技术涉及一种考虑概念间关系的语义相关度计算方法。
技术介绍
相当多的研究对语义相似度的计算进行了阐述。相似度计算根据其方法和原理的不同可以分为基于结构的方法、基于上下文的方法、基于属性的计算方法以及混合方法。基于结构的方法是根据某种领域本体(Ontology),通过比较两个概念在本体库中路径长度来计算语义相关度,两个词语语义距离越大,也就在本体中处于不同树状节点的位置距离越大,其语义相关度越小,反之则越大。例如后面进行比较的WuandPalmer法,以及LeacockandChodorow方法。该方法计算语义相关度复杂性最小,但是主要缺点是需要假设本体分类体系中所有边的距离同等重要,但实际上,边的重要性受位置信息、自身的类型和所表征的关联强度等因素影响而不同。基于上下文的相关度计算方法是利用在大规模语料库中学习词语共现频率来进行统计分析的方法,即依靠统计学计算来决定两个词语之间的相关度。共现频率越高的词语,它们之间的语义相关度也越高,但是该方法无法对词语做进一步的语义分析,无法反映词语之间的具体关系,以及具体相关的语义类型。而词语的共现频率是在本体知识相关的语料库中进行计算,也就是在不同的语料库中进行计算,共现频率会改变,同一对概念之间的语义相关度也就改变了。该方法适用于在大规模语料库中计算语义相关度,否则计算结果会出现较大的偏差。基于特征的语义计算方法,采用语义知识来计算,通过比较概念的共性和差异来体现语义特征,即共有属性越多,则语义相似性越大,反之越小,例如后面作为比较的Tversky算法。这个方法的缺点是概念的独特语义和同义词,会由于不同的本体而不同。并且该语义相关度的计算受不同属性的权重定义的影响。这些权重参数需要对整个本体库进行整体评估后定义,因此该方法缺少针对大部分本体库中语义相关度计算的支持。并且也没有考虑概念之间在本体中的位置信息,无法考虑其祖先概念节点和自身所包含的信息内容。混合方法将上述方法的结合起来进行相似度的计算,同时考虑了概念词的在本体中的位置信息,边的类型,概念词的属性等。混合方法虽然会对上述语义相关度计算方法的缺点进行了一定的改善,取得了不错的效果,但是计算起来较为繁琐,也没有从根本上解决上面三种方法中出现的问题。
技术实现思路
本专利技术为了解决上述问题,提出了一种考虑概念间关系的语义相关度计算方法,本专利技术通过在领域本体架构中,考虑概念和概念之间的关系,综合了两概念之间共同具有关系计算出来的语义度以及两概念之间独自具有关系计算语义相关度,从而更客观科学得计算概念之间的语义关系。为了更好的说明技术方案,先进行如下的词语解释:为了实现上述目的,本专利技术采用如下技术方案:一种考虑概念间关系的语义相关度计算方法,在基本相似度计算方法的基础上,结合两个概念之间共同具有关系计算出来的语义度以及两个概念之间独自具有的关系计算出来的语义度,得到最终的语义相关度计算值。进一步的,两个概念之间的相似度大小,与两者之间的相同属性的数量有关,拥有共同连接的节点多的概念相似度大。同时本方法又综合考虑了不同属性和相同属性对语义相关度的影响,例如计算sim(葡萄糖氧化酶,漂白作用),概念“葡萄糖氧化酶”和“漂白作用”之间相同的属性关系只有一个,但是不同属性有多个,经过本方法进行计算两者之间语义相关度接近1。进一步的,在本体库中的逻辑和规则的基础上,两个术语Gi与Ei的语义相关度定义如下:将本体元素之间存在的约束关系集合设定一个向量体系,表示为O=[FCSIR],其中:C表示概念名类集合,F表示概念名父类集合,F(c1,c2)表示c1是c2的父类概念,S表示概念名子类集合,S(c1,c2)表示术语c1是c2的子类,I表示概念名实例集合,一个概念c1的例子称为实例,表示为c1.Im,m表示一个概念可以有多个实例,R表示概念之间的非分类关系集合R→C×C,rel(R)=R(c1,c2)表示c1与c2之间连接的一组关系。进一步的,两概念之间基本相关度的计算方法:其中,N1是C1和C3之间经过的节点数,N2是C2和C3之间经过节点数,N3是C3与根节点之间的节点数,概念C3是概念C1和概念C2通向根节点的共同节点,计算C1和C2通向共同节点的节点数,计数需要包含该节点,共同节点不计数,计算共同节点C3与根节点之间的节点数,C3节点计数而根节点不计数。计算两个概念之间共同具有的关系的反映为:|ck|∈(1,2...,n)定义N(ci)为概念ci在领域本体中所有关联的关系集合,N(cj)为概念cj在领域本体中所有关联的关系集合,N(ci,cj)=Ncommon(ci,cj)表示概念ci,cj共同具有的关系集合,定义·代表关系的基数。ck为ci,cj共同相连的概念,那么ck∈N(ci,cj),sim1需要计算ci与ck以及ck与cj之间基本相似度的最大值再与ci,cj共同具有的关系的个数相加。如果一个概念为另一个概念的子类,则子类继承它父类的所有关系,例如{工业酶,氧化还原酶},概念“氧化还原酶”是“工业酶”的子类,则“氧化还原酶”继承了“工业酶”的所有关系,即从R(工业酶,研究主题),R(工业酶,项目),R(工业酶,生物),R(工业酶,化学产物),R(工业酶,反应类型),R(工业酶,应用)这些关系,继承到子类“氧化还原酶”为R(氧化还原酶,研究主题),R(氧化还原酶,项目),R(氧化还原酶,生物),R(氧化还原酶,化学产物),R(氧化还原酶,反应类型),R(氧化还原酶,应用)。进一步的,两个概念之间完全不相同的属性的反映为:其中,Ndiffer(ci)=N(ci)-Ncommon(ci,cj),Ndiffer(cj)=N(cj)-Ncommon(ci,cj),这两个等式代表了ci和cj各自具有的关系集合。设cz∈Ndiffer(ci),cy∈Ndiffer(cj),即cz是概念ci相对于cj所具有的不同概念关系,cy是cj相对于ci所具有的不同概念关系,sim2逐个比较ci和cj与各自不同关系的基本相似度再与这些不同关系之间的基本相似度进行异或运算。在计算sim2时,若概念B相对概念A有不同关系,而概念A与概念B相比较没有不同的关系,就把概念A看做不同关系作为上面提到的cz或cy,带入sim2公式中进行计算,例如{葡萄糖氧化酶,漂白作用}的sim2计算中体现。进一步的,定义语义相关度计算方法为两个概念之间各自具有关系的反映sim2与两个概念之间共同具有的关系的反映sim1之和与概念ci和cj在领域本体中具有所有关系总数的一个比值。进一步的,语义相关度计算中,两个概念之间存在直接相连的关系的情况,将两个概念之间共同具有的关系的反映的计数为一。进一步的,领域本体最好参照顶级本体的结构把相关概念及关系构建在一个本体中,将两个概念之间以及各自具有的所有属性和关系体现出来。进一步的,概念之间有不相同的关系数量,在适度的范围内会对相似度有影响。与现有技术相比,本专利技术的有益效果为:(1)本专利技术提出的语义相关度计算方法充分考虑了两个概念之间的关系,具有相同属性以及各自具有的独特属性,均在计算中得以体现,更接近人的判定结果,计算结果更准确;(2)本专利技术能够有效的减弱不同人员对概念的理解本文档来自技高网
...
一种考虑概念间关系的语义相关度计算方法

【技术保护点】
一种考虑概念间关系的语义相关度计算方法,其特征是:在基本相似度计算方法的基础上,结合两个概念之间共同具有关系计算出来的语义度以及两个概念之间独自具有的关系计算出来的语义度,得到最终的语义相关度计算值。

【技术特征摘要】
1.一种考虑概念间关系的语义相关度计算方法,其特征是:在基本相似度计算方法的基础上,结合两个概念之间共同具有关系计算出来的语义度以及两个概念之间独自具有的关系计算出来的语义度,得到最终的语义相关度计算值。2.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:两个概念之间的相似度大小,与两者之间的相同属性的数量有关,相同属性,拥有共同连接的节点多的概念相似度大。3.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:在本体库中的逻辑和规则的基础上,两个术语Gi与Ei的语义相关度定义如下:将本体元素之间存在的约束关系集合设定一个向量体系,表示为O=[FCSIR],其中:C表示概念名类集合,F表示概念名父类集合,F(c1,c2)表示c1是c2的父类概念,S表示概念名子类集合,S(c1,c2)表示术语c1是c2的子类,I表示概念名实例集合,一个概念c1的例子称为实例,表示为c1.Im,m表示一个概念可以有多个实例,R表示概念之间的非分类关系集合R→C×C,rel(R)=R(c1,c2)表示c1与c2之间连接的一组关系。4.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:两概念之间基本相关度的计算方法:其中,N1是C1和C3之间经过的节点数,N2是C2和C3之间经过节点数,N3是C3与根节点之间的节点数,概念C3是概念C1和概念C2共同通向根节点的节点。5.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:两个概念之间共同具有的关系的反映为:|ck|∈(1,2...,n)定义N(ci)为概念ci在领域本体中关联的一组关系集合,N(cj)为概念cj在领域本体中关联的一组关系集合,N(ci,cj)=Ncommon(ci,cj)表示概念ci,cj共同具有的关系集合,定义|·|代表关系的基数。ck为ci,cj共同相连的概念,那么ck∈N...

【专利技术属性】
技术研发人员:张睿亓小宇尚兆霞段永璇范军孙小飞岳媛赵悟
申请(专利权)人:山东省医药卫生科技信息研究所
类型:发明
国别省市:山东,37

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1