The invention discloses a semantic relevance calculation method considering the relationship between concepts, methods of calculating the similarity in basic, combination between the two concepts is calculated with the relationship between the calculated by the relationship between semantic degree and two semantic concepts, get the final value of semantic relativity calculation. The semantic correlation calculation method proposed by the present fully considers the relationship between the two concepts, and has the same attributes and their unique attributes, which are all reflected in the calculation, closer to the human decision results, and the calculation results are more accurate.
【技术实现步骤摘要】
一种考虑概念间关系的语义相关度计算方法
本专利技术涉及一种考虑概念间关系的语义相关度计算方法。
技术介绍
相当多的研究对语义相似度的计算进行了阐述。相似度计算根据其方法和原理的不同可以分为基于结构的方法、基于上下文的方法、基于属性的计算方法以及混合方法。基于结构的方法是根据某种领域本体(Ontology),通过比较两个概念在本体库中路径长度来计算语义相关度,两个词语语义距离越大,也就在本体中处于不同树状节点的位置距离越大,其语义相关度越小,反之则越大。例如后面进行比较的WuandPalmer法,以及LeacockandChodorow方法。该方法计算语义相关度复杂性最小,但是主要缺点是需要假设本体分类体系中所有边的距离同等重要,但实际上,边的重要性受位置信息、自身的类型和所表征的关联强度等因素影响而不同。基于上下文的相关度计算方法是利用在大规模语料库中学习词语共现频率来进行统计分析的方法,即依靠统计学计算来决定两个词语之间的相关度。共现频率越高的词语,它们之间的语义相关度也越高,但是该方法无法对词语做进一步的语义分析,无法反映词语之间的具体关系,以及具体相关的语义类型。而词语的共现频率是在本体知识相关的语料库中进行计算,也就是在不同的语料库中进行计算,共现频率会改变,同一对概念之间的语义相关度也就改变了。该方法适用于在大规模语料库中计算语义相关度,否则计算结果会出现较大的偏差。基于特征的语义计算方法,采用语义知识来计算,通过比较概念的共性和差异来体现语义特征,即共有属性越多,则语义相似性越大,反之越小,例如后面作为比较的Tversky算法。这个方法的缺点是 ...
【技术保护点】
一种考虑概念间关系的语义相关度计算方法,其特征是:在基本相似度计算方法的基础上,结合两个概念之间共同具有关系计算出来的语义度以及两个概念之间独自具有的关系计算出来的语义度,得到最终的语义相关度计算值。
【技术特征摘要】
1.一种考虑概念间关系的语义相关度计算方法,其特征是:在基本相似度计算方法的基础上,结合两个概念之间共同具有关系计算出来的语义度以及两个概念之间独自具有的关系计算出来的语义度,得到最终的语义相关度计算值。2.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:两个概念之间的相似度大小,与两者之间的相同属性的数量有关,相同属性,拥有共同连接的节点多的概念相似度大。3.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:在本体库中的逻辑和规则的基础上,两个术语Gi与Ei的语义相关度定义如下:将本体元素之间存在的约束关系集合设定一个向量体系,表示为O=[FCSIR],其中:C表示概念名类集合,F表示概念名父类集合,F(c1,c2)表示c1是c2的父类概念,S表示概念名子类集合,S(c1,c2)表示术语c1是c2的子类,I表示概念名实例集合,一个概念c1的例子称为实例,表示为c1.Im,m表示一个概念可以有多个实例,R表示概念之间的非分类关系集合R→C×C,rel(R)=R(c1,c2)表示c1与c2之间连接的一组关系。4.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:两概念之间基本相关度的计算方法:其中,N1是C1和C3之间经过的节点数,N2是C2和C3之间经过节点数,N3是C3与根节点之间的节点数,概念C3是概念C1和概念C2共同通向根节点的节点。5.如权利要求1所述的一种考虑概念间关系的语义相关度计算方法,其特征是:两个概念之间共同具有的关系的反映为:|ck|∈(1,2...,n)定义N(ci)为概念ci在领域本体中关联的一组关系集合,N(cj)为概念cj在领域本体中关联的一组关系集合,N(ci,cj)=Ncommon(ci,cj)表示概念ci,cj共同具有的关系集合,定义|·|代表关系的基数。ck为ci,cj共同相连的概念,那么ck∈N...
【专利技术属性】
技术研发人员:张睿,亓小宇,尚兆霞,段永璇,范军,孙小飞,岳媛,赵悟,
申请(专利权)人:山东省医药卫生科技信息研究所,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。