一种改进的基于领域本体的概念相关度计算方法技术

技术编号:15280357 阅读:94 留言:0更新日期:2017-05-05 08:10
一种改进的基于领域本体的概念相关度计算方法,利用七步法或循环获取法构建专业领域本体数据库,根据本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度,考虑本体中存在的特殊关联关系计算本体概念间的相关度,结合以上所求得的相关度得到最终的相关度。本发明专利技术相较经典相关度计算公式,效果更好;为语义扩展提供了良好的理论基础;为提高信息检索的查全率和查准率提供了良好的理论基础。

An improved method based on domain ontology to calculate the degree of relevance

An improved domain ontology concept based on correlation calculation method, the construction of specialized domain ontology database access method by seven steps or two cycle, calculation of the correlation between the concepts of ontology ontology according to the influence between the basic attributes of the relationship between distance and path, path number, density and depth factor, considering the special relationship existing in the body calculation of the correlation between ontology concepts, combined with the above obtained correlation to get the final degree of correlation. Compared with the classical correlation formula, the method has better effect, and provides a good theoretical basis for semantic extension, and provides a good theoretical basis for improving the recall and precision of information retrieval.

【技术实现步骤摘要】

本专利技术涉及语义网络
,具体涉及一种改进的基于领域本体的概念相关度计算方法
技术介绍
目前,针对词语相关度计算的研究很多,计算方法和算法也比较丰富,或是基于词语共现几率计算相关度,或是根据词语语义词典的相似度来得到相关度,或是基于维基百科层次结构计算相关度。这其中不乏比较经典和优秀的算法,但也存在着一些问题,例如,这些方法或是不能全面考虑词语语义,或是未语义概念间的关联关系的特性分析相关度。领域本体相对于计算机处理文本,出现地较晚。随着知识量的指数级增长,很难有哪部语义词典能够完整地覆盖所有范围。本体作为表示某专业领域的知识数据库,其构成结构非常清晰,类似于一棵树,更复杂的领域本体会是图形结构。尽管会出现图形结构,但是领域本体中存在着非常明显的层次结构。概念间的相关度不等同于概念相似度,考虑了基本属性关系、路径距离与路径数量、密度与深度等影响因子,也考虑本体中存在的特殊关联关系,即相关度不仅受到相似度的影响,还与本体概念间的关联程度有关。如工业”与“信息化”在信息化没有现在如此普及时,工业领域中还少见信息化这个概念,但是随着信息化进程的加快,以信息化促进工业化成为时代口号,为大多数所接受。为了满足上述需求,本专利技术提供了一种改进的基于领域本体的概念相关度计算方法。
技术实现思路
针对于即考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子,又考虑本体中存在的特殊关联关系来计算本体概念相关度问题,本专利技术提供了一种改进的基于领域本体的概念相关度计算方法。为了解决上述问题,本专利技术是通过以下技术方案实现的:步骤1:利用七步法或循环获取法构建专业领域本体数据库。步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念(g1,g2)间的相关度。步骤3:考虑本体中存在的特殊关联关系,计算本体概念(g1,g2)间的相关度RE关联(g1,g2)。步骤4:综合上述步骤2、步骤3,得到本体概念(g1,g2)间的最终相关度RE最终(g1,g2)本专利技术的有益效果是:1、为语义扩展提供良好的理论基础。2、与经典相关度计算公式对比。此方法取得了比不考虑关联性的相似度计算方法取得了更好的效果。3、为实现语义扩展能够提高信息检索的查全率和查准率提供良好的理论基础。附图说明图1为一种改进的基于领域本体的概念相关度计算方法结构流程图。图2为本体概念领域模块语义树形图。具体实施方式为了解决即考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子,又考虑本体中存在的特殊关联关系来计算本体概念相关度问题,结合图1-图2对本专利技术进行了详细说明,其具体实施步骤如下:步骤1:利用七步法或循环获取法构建专业领域本体数据库。步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念(g1,g2)间的相关度,其具体计算过程如下:步骤2.1)构造基于基本属性关系对两本体概念(g1,g2)相似度的影响函数RE属性(g1,g2)两本体概念(g1,g2)相似度与属性相似度成正比,与属性权重也成正比。路径为g1→J1→…→Jn→g2假设g1、J1、…、Jn、g2的属性个数各为每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排序,对每个概念属性取前i个属性权重值。这里即得下列属性权重矩阵(n+2)×i:从专业领域本体树中,可以很清楚的知道g1、J1、…、Jn概念中的共有属性,记为(S1′,S2′,…,Sj′),这里j为共有属性的个数,j≤i,且为概念g1、J1、…、Jn、g2中属性相同,则取出其对应权重值所以构建的影响函数为:步骤2.2)构造基于路径距离、与路径数量对两本体概念(g1,g2)相似度的影响函数RE路径(g1,g2)两本体概念(g1,g2)相似度与其路径长度成反比,找到两本体概念(g1,g2)间最长路径,其中经过的概念节点有n个,即(J1→…→Jn)。即经过路径的长度为L(g1,g2)=n+2两本体概念(g1,g2)相似度与路径数量成反比,即当路径数量越多,两本体概念(g1,g2)相似度越大,这里根据专业领域本体树可知路径数量为N,如图2。即上式r为路径长度与路径个数的权重比值,这个可以根据实验迭代出来。步骤2.3)构造密度与深度对两本体概念(g1,g2)相似度的影响函数RE2(g1,g2),需先构造深度对两本体概念语义相似度的影响函数RE深度(g1,g2)以及密度对两本体概念语义相似度的影响函数RE密度(g1,g2),其具体求解过程如下:步骤2.3.1)先构造深度对两本体概念语义相似度的影响函数RE深度(g1,g2)概念节点的深度是指概念在所处的本体树中的层次深度。在本体树中,每个概念节点都是对上一层节点的一次细化。因此概念节点处于本体树中层次越深,则表示的内容越具体,概念间的相似度越大。反之概念间的相似度越小。这里深度值从根节点开始,根节点的深度值为1,从概念(g1,g2)与共同父节点构成的树子集中分别找到两最短路径的共同父节点,即则分别为概念(g1,g2)的共同父节点在本体树中的最短深度。从而构造下列影响因子:两本体概念(g1,g2)在本体树中的深度为:即两本体概念(g1,g2)在本体树中得平均深度为:从而构造下列影响因子:上式dep(tree)为本体树的深度。综上,有下式:步骤2.3.2)构造密度对两本体概念语义相似度的影响函数RE密度(g1,g2)概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点之间的相似度越大。从概念(g1,g2)的直接子节点中找到共同直接子节点个数,如上为N。从概念(g1,g2)中找到直接子节点数最多的,记为:上式i、j分别为以概念g1、g2为父节点所对应得子分枝个数。分别为概念g1,g2对应的第i、j个子分枝中直接子节点的个数。则步骤2.3.3)由上述步骤RE深度(g1,g2)、RE密度(g1,g2)可得:步骤3:考虑本体中存在的特殊关联关系,计算本体概念(g1,g2)间的相关度RE关联(g1,g2),其具体计算过程如下:在构建专业领域本体模块过程中,有些本体之间存在特殊关联关系,例如工业与信息化,在信息时代还没普及的时候,这两则之间关联度接近为0,而现今,关联度很高。所以专业领域本体模块需要扩展连接存在特殊关联关系的本体概念,并由相关领域专家对有向边赋予一定的权重。根据上述理论,可以计算特殊关联关系对本体概念(g1,g2)间的相关度影响函数,即:上式N′为本体概念(g1,g2)间的路径个数,N′>0与本体概念(g1,g2)间的相关度成正比。上式MAX(L1,L2,…,LN′)为路径数N′中路径长度最大的值。分别为路径长度最长的对应有向边权重值,在构建专业领域数据库过程中由领域专家迭代统计给出。步骤4:综合上述步骤2、步骤3,得到本体概念(g1,g2)间的最终相关度RE最终(g1,g2),其具体计算过程如下:其中α、β、γ分别为本体间的基本属性关系、路径距离与路径数量、密度与深度的影响系数,可以根据实验迭代得出最优的影响系数,且α+β+γ=1,如果α>γ>β,则α对本体概念(g1,g2)间的最终相关度影响最大,γ次之,β对本体概念(g1,g2)间的最终相关度影响最小。如果本文档来自技高网...
一种改进的基于领域本体的概念相关度计算方法

【技术保护点】
一种改进的基于领域本体的概念相关度计算方法,本专利技术涉及语义网络技术领域,具体涉及一种改进的基于领域本体的概念相关度计算方法,其特征是,包括如下步骤:步骤1:利用七步法或循环获取法构建专业领域本体数据库步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度步骤3:考虑本体中存在的特殊关联关系,计算本体概念间的相关度步骤4:综合上述步骤2、步骤3,得到本体概念间的最终相关度。

【技术特征摘要】
2016.08.24 CN 201610716193X1.一种改进的基于领域本体的概念相关度计算方法,本发明涉及语义网络技术领域,具体涉及一种改进的基于领域本体的概念相关度计算方法,其特征是,包括如下步骤:步骤1:利用七步法或循环获取法构建专业领域本体数据库步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度步骤3:考虑本体中存在的特殊关联关系,计算本体概念间的相关度步骤4:综合上述步骤2、步骤3,得到本体概念间的最终相关度。2.根据权利要求1中所述的一种改进的基于领域本体的概念相关度计算方法,其特征是,以上所述步骤2中的具体计算过程如下:步骤2:考虑了本体间的基本属性关系、路径距离与路径数量、密度与深度等影响因子计算两本体概念间的相关度,其具体计算过程如下:步骤2.1)构造基于基本属性关系对两本体概念相似度的影响函数两本体概念相似度与属性相似度成正比,与属性权重也成正比路径为假设的属性个数各为每个属性对相应概念的影响权重是不同的,按照权重系数分别对概念属性进行排序,对每个概念属性取前i个属性权重值这里即得下列属性权重矩阵从专业领域本体树中,可以很清楚的知道概念中的共有属性,记为这里j为共有属性的个数,且为概念中属性相同,则取出其对应权重值所以构建的影响函数为:步骤2.2)构造基于路径距离、与路径数量对两本体概念相似度的影响函数两本体概念相似度与其路径长度成反比,找到两本体概念间最长路径,其中经过的概念节点有n个,即即经过路径的长度为两本体概念相似度与路径数量成反比,即当路径数量越多,两本体概念相似度越大,这里根据专业领域本体树可知路径数量为N,如下图即上式为路径长度与路径个数的权重比值,这个可以根据实验迭代出来步骤2.3)构造密度与深度对两本体概念相似度的影响函数需先构造深度对两本体概念语义相似度的影响函数以及密度对两本体概念语义相似度的影响函数其具体求解过程如下:步骤2.3.1)先构造深度对两本体概念语义相似度的影响函数概念节点的深度是指概念在所处的本体树中的层次深度,在本体树中,每个概念节点都是对上一层节点的一次细化,因此...

【专利技术属性】
技术研发人员:金平艳
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1