一种改进的本体概念词汇语义相似度求解方法技术

技术编号:15265653 阅读:90 留言:0更新日期:2017-05-03 23:45
一种改进的本体概念词汇语义相似度求解方法,将待比较词输入已经初始化成功的统计方法模块中后,选取待比较词对应深度最大的本体概念,计算两个本体概念间的距离,求解待比较词之间的词形相似度,由此得出待比较词之间的相似度。本发明专利技术不但在量化概念上更接近专家的经验值,提高了语义相似度结果的准确度以及本体推理效果,而且,考虑了词语本身具有的词形相似度、语义相似度结果的准确度得到了更好提高;更符合实际应用效果。

An improved method for solving semantic similarity of ontology concepts

An improved ontology concept semantic similarity calculation method, the statistical method has successfully initialized the word input module, selected the comparative word ontology concept corresponding maximum depth, two calculating distance between ontology concepts, find the solution to the morphological similarity comparison between words, thus to compare the similarity between words. The invention not only in the quantitative concept is more close to the expert experience, improve the accuracy of semantic similarity and ontology reasoning, and considering the morphological similarity and semantic similarity results of words itself with the accuracy obtained better; more practical effect.

【技术实现步骤摘要】

本专利技术涉及语义网络
,具体涉及一种改进的本体概念词汇语义相似度求解方法
技术介绍
目前,语义相似度计算被广泛应用于信息检索、语义web、自然语言处理等领域。前人主要从概念的名称、属性、结构等方面来综合考虑概念的相似度。之前有先将概念相似度计算分为两层:“初始相似度”和“通过非上下位关系体现的相似度”,前者主要利用概念之间的距离计算得到,后者则是在前人计算的基础上,通过概念的非上下位关系计算得到;再综合二者就可得到领域本体内概念的实际相似度。除此之外,还有主要通过概念间的上下位关系以及其它因素来计算领域内部概念之间的语义相似度。例如,有人提出了一种综合的相似度计算方法,即先根据两个概念名称的相似性过滤出最相关的概念,再分别基于概念实例、概念属性和概念关系计算概念相似度,并进行综合。由于本体能够将领域中的各种概念和关系进行显示地、形式地表达,因此本体在概念语义相似度计算中发挥重要作用,针对于概念在本体树中的层次深度、距离以及待比较词间的词形相似度等影响因子,综合考虑以上因子,本专利技术提出了一种改进的本体概念词汇语义相似度求解方法。
技术实现思路
针对如何更精准获得每一个术语的相似术语问题以及考虑词形、本体概念等影响因子,本专利技术提供了一种改进的本体概念词汇语义相似度求解方法。为了解决上述问题,本专利技术是通过以下技术方案实现的:步骤1:初始化统计方法模块。步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。步骤3:将待比较词(c1,c2)映射到本体概念模块中。步骤4:分别选取待比较词(c1,c2)对应深度最大的本体概念g1、g2。步骤5:计算待比较词(c1,c2)对应深度最大的两本体概念间距离dis(g1,g2)。步骤6:待比较词(c1,c2)之间的词形相似度xingsim(c1,c2)。步骤7:综合上述步骤,计算两待比较词(c1,c2)的相似度sim(c1,c2)。本专利技术有益效果是:1、此计算词汇相似度方法在量化概念上更接近专家的经验值。2、此方法更充分、更综合考虑了待比较词(c1,c2)对应深度最大的本体概念间的距离等因素,大大的提高了语义相似度结果的准确度。3、更好的提高了本体推理的效果。4、又考虑了词语本身具有的词形相似度、语义相似度结果的准确度得到了更好提高。5、更符合实际应用效果。附图说明图1一种改进的本体概念词汇语义相似度求解方法结构流程图具体实施方式为解决更精准的获得每一个术语的相似术语问题以及考虑词形、本体概念等影响因子,结合图1对本专利技术进行了详细说明,其具体实施步骤如下:步骤1:初始化统计方法模块。步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。步骤3:将待比较词(c1,c2)映射到本体概念模块中。步骤4:分别选取待比较词(c1,c2)对应深度最大的本体概念g1、g2,其具体描述如下:待比较词(c1,c2)与概念之间是一对多的关系,当选取的概念深度越深,则待比较词(c1,c2)则越具体,更方便计算待比较词(c1,c2)的语义相似度。这个深度在统计模块块中很容易找到,例如在《知网》中找到词语对应的本体概念。步骤5:计算待比较词(c1,c2)对应深度最大的两本体概念间距离dis(g1,g2),需先求两本体概念间义原项的相似度sim(g1,g2),再计算两本体概念间相对深度deepth(g1,g2),具体计算过程如下:5.1)两本体概念间义原项的相似度sim(g1,g2)设c1对应深度最大的本体概念g1中含有n个义原,即g1∈(y1,y2,…,yn),c2对应深度最大的本体概念g2中含有m个义原,即g2∈(y1′,y2′,…,ym′)。分别两两计算g1与g2中义原的相似度,即sim(yi,yj′),i∈(1,2,…,n)、j∈(1,2,…,m),可以得g1与g2中义原项相似度矩阵J(g1,g2),如下:根据上述矩阵找出每个行向量中义原平均相似度averageSi,即最后得到两本体概念间义原项的相似度sim(g1,g2),如下:由于两本体概念间距离dis(g1,g2)与义原项的相似度sim(g1,g2)成反比,所以对sim(g1,g2)进行归一化处理,即得α为光滑系数,具体由用户指定。5.2)计算两本体概念间相对深度deepth(g1,g2)deepth(g1,g2)=d1-d2上式d1为c1对应深度最大的本体概念g1在模块中的深度值,同理d2为c2对应深度最大的本体概念g2在模块中的深度值,这个根据模块可以很容易得出。5.3)计算待比较词(c1,c2)对应深度最大的两本体概念间距离dis(g1,g2)上式A+B=1,A、B分别为sim(g1,g2)、deepth(g1,g2)的权重比例,这个由专家给出。对dis(g1,g2)进行归一化处理,即上式β可以通过非线性回归迭代估计确定。步骤6:待比较词(c1,c2)之间的词形相似度xingsim(c1,c2),需先知词长相似率与词性相似率,其具体计算过程如下:6.1)词长相似率rateword(c1,c2)6.2)词性相似率wordsim(c1,c2)上式n为待比较词(c1,c2)中词性相似个数,len(c1)为词c1的长度,len(c2)为c2的长度。6.3)待比较词(c1,c2)之间的词形相似度xingsim(c1,c2)步骤7:综合上述步骤,计算两待比较词C∈(c1,c2)的相似度sim(c1,c2),其具体计算过程如下:sim(c1,c2)=A′dis(g1,g2)归一化+B′xingsim(c1,c2)上式A′、B′为权重因子,当A′>0.5时,两本体概念间距离dis(g1,g2)对相似度sim(c1,c2)的影响较大,否则,词形相似度wordsim(c1,c2)对相似度sim(c1,c2的影响较大。根据经验可得,前者对sim(c1,c2)影响更大。一种改进的本体概念词汇语义相似度求解方法,其伪代码计算过程:输入:初始化模块,待比较词(c1,c2)输出:待比较词(c1,c2)相似度sim(c1,c2)。本文档来自技高网...
一种改进的本体概念词汇语义相似度求解方法

【技术保护点】
一种改进的本体概念词汇语义相似度求解方法,本专利技术涉及语义网络技术领域,具体涉及一种改进的本体概念词汇语义相似度求解方法,其特征是,包括如下步骤:步骤1:初始化统计方法模块步骤2:将待比较词输入初始化统计方法模块中步骤3:将待比较词映射到本体概念模块中步骤4:分别选取待比较词对应深度最大的本体概念步骤5: 计算待比较词对应深度最大的两本体概念间距离步骤6:待比较词之间的词形相似度步骤7:综合上述步骤,计算两待比较词的相似度。

【技术特征摘要】
2016.08.03 CN 20161063089751.一种改进的本体概念词汇语义相似度求解方法,本发明涉及语义网络技术领域,具体涉及一种改进的本体概念词汇语义相似度求解方法,其特征是,包括如下步骤:步骤1:初始化统计方法模块步骤2:将待比较词输入初始化统计方法模块中步骤3:将待比较词映射到本体概念模块中步骤4:分别选取待比较词对应深度最大的本体概念步骤5:计算待比较词对应深度最大的两本体概念间距离步骤6:待比较词之间的词形相似度步骤7:综合上述步骤,计算两待比较词的相似度。2.根据权利要求1中所述的一种改进的本体概念词汇语义相似度求解方法,其特征是,以上所述步骤5中的具体计算过程如下:步骤5:计算待比较词对应深度最大的两本体概念间距离,需先求两本体概念间义原项的相似度,再计算两本体概念间相对深度,具体计算过程如下:5.1)两本体概念间义原项的相似度设对应深度最大的本体概念中含有n个义原,即,对应深度最大的本体概念中含有m个义原,即分别两两计算与中义原的相似度,即,可以得与中义原项相似度矩阵如下:根据上述矩阵找出每个行向量中义原平均相似度即最后得到两本体概念间义原项的相...

【专利技术属性】
技术研发人员:金平艳
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1