当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于自适应混合本体映射的知识图谱融合方法技术

技术编号:27292217 阅读:15 留言:0更新日期:2021-02-06 12:01
本发明专利技术公开了一种基于自适应混合本体映射的知识图谱融合方法,方法包括:获取待融合的两个知识图谱文件,通过对文件进行解析得到对应的本体集合S1和S2;对于本体集合S1中的任一本体O1,本体集合S2中的任一本体O2,计算O1和O2的混合相似度,所述混合相似度是两个本体之间的名称相似度、属性相似度、实例相似度、结构相似度以及注释相似度的加权和;当混合相似度大于指定阈值时,将两个O1和O2进行映射,在遍历两个知识图谱中的所有本体并进行映射后,完成对应两个知识图谱的融合。本发明专利技术对知识图谱中字面、结构、注释、属性、实例等单元特征进行多方位综合提取,并通过优化的权重策略实现动态自适应调整权重,使得两个知识图谱达到充分、深度融合。深度融合。深度融合。

【技术实现步骤摘要】
一种基于自适应混合本体映射的知识图谱融合方法


[0001]本专利技术涉及自然语言处理
,具体涉及一种知识图谱融合方法。

技术介绍

[0002]知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,通过可视化技术描述知识资源及其载体,其本质上是一种揭示实体之间关系的语义网络。最近几年知识图谱在知识表示和建模中起着举足轻重的作用,人们也已经建立了很多描述通用知识的知识图谱以及专业领域知识图谱,并将其应用于机器翻译、信息检索、知识推理等领域。随着人们对知识掌握不断拓展和深入,不同领域知识的交叉和基于不同大规模知识图谱的系统间交互都提出了知识图谱的融合需求。
[0003]为了对大量异构、多源大数据形成的知识图谱进行有效融合,人们将本体映射(Ontology Mapping)的概念应用于知识图谱融合。本体是计算机科学、数据科学许多应用问题的数据基础。本体的作用是表达知识。在本体中,知识可以被正式地表达为一系列的领域相关概念,以及这些概念之间的相互关系。本体可以被用来为一个知识领域建立模型,并且支持对这个模型中的实体进行推理。本体的出现给计算机科学领域以及知识工程领域带来知识载体,利用本体,可以在不同的人或应用程序之间共享一组有结构的信息,并达成理解上的共识。本体映射是决定本体中概念一致性的过程。本体映射领域已有不少方法(参见权威著作:Kalfoglou,Y.,&Schorlemmer,M.(2003).Ontology mapping:the state of the art.The knowledge engineering review,18(1),1-31.)。然而传统的本体映射方法是在1990年代提出的,应用场景是典型的“小数据”和“单一本体概念”,扩展性、自适应性和泛化性较弱,不能满足当前大数据时代的需求。也难以合理体现出不同本体所包含的独特概念特征(如字面、结构、注释、属性、实例等单元特征),这必将极大地影响本体映射结果的合理性,不能得到良好的知识融合效果。例如,欠优的本体映射方法,会导致融合后的知识图谱中存在错误的对齐实体,或者应被对齐缺没有映射的实体,这会增加知识图谱中知识的错误,直接影响下游的智能搜做、智能问答、个性化推荐和分类等多个任务。

技术实现思路

[0004]专利技术目的:针对现有技术的问题,本专利技术提出一种基于自适应混合本体映射的知识图谱融合方法,提高知识图谱融合的效率和泛化性。
[0005]技术方案:一种基于自适应混合本体映射的知识图谱融合方法,包括以下步骤:
[0006]获取待融合的两个知识图谱文件,通过对文件进行解析得到对应的本体集合S1和S2;
[0007]对于本体集合S1中的任一本体O1,本体集合S2中的任一本体O2,根据下式计算O1和O2的混合相似度:
[0008]S(O1,O2)=σ1*S
literal
+σ2*S
structure
+σ3*S
instance
+σ4*S
property
+σ5*S
comment
[0009]式中S(O1,O2)表示本体O1与O2的混合相似度,S
literal
为两个本体之间的名称相似
度、S
property
为两个本体之间的属性相似度、S
instance
为两个本体之间的实例相似度、S
structure
为两个本体之间的结构相似度,S
comment
为两个本体之间的注释相似度,σ1~σ5分别为相应维度相似度的权重;
[0010]当S(O1,O2)大于指定阈值时,将两个O1和O2进行映射,在遍历两个知识图谱中的所有本体并进行映射后,完成对应两个知识图谱的融合。
[0011]有益效果:本专利技术提供了一种基于自适应混合本体映射的知识图谱融合方法,通过使用名称、属性、实例、结构相似度来刻画多种概念的单元相似度,并使用基于CNN的注释相似度来辅助本体中的概念映射过程,对知识图谱中字面、结构、注释、属性、实例等单元特征进行多方位综合提取,获得全面的混合本体映射相似度,并通过优化的权重策略实现动态自适应调整权重,使得两个知识图谱的融合达到充分融合、深度融合的目的,从而得到更丰富、全面的知识库。本专利技术克服了目前知识图谱融合技术中缺乏扩展性、自适应和泛化性的问题,且方法简单易行,适用于智能问答、智能搜索、个性化推荐和知识工程等领域。
附图说明
[0012]图1是根据本专利技术实施例的基于自适应混合本体映射的知识图谱融合方法流程图;
[0013]图2是根据本专利技术实施例的自适应混合本体映射模型的建立流程图;
[0014]图3是根据本专利技术实施例的本体映射对注释相似度进行处理的示意图。
具体实施方式
[0015]下面结合附图对本专利技术的技术方案作进一步说明。
[0016]本专利技术实施例提供一种知识图谱融合方法,在该融合方法中利用了一种新构建的自适应混合本体映射模型,其主要处理流程图如图1所示。本体是从客观世界中抽象出来的一个概念模型,这个模型包含了某个学科领域内的概念以及概念之间的关系。本体是相应领域内公认的概念集合,本专利技术综合考虑如下本体概念进行本体映射:名称、结构、实例、注释和属性,并基于该本体映射方法实现知识图谱的融合。
[0017]图2给出本专利技术的自适应混合本体映射方法的处理流程,包括以下步骤:
[0018]步骤S1:打开知识图谱KG1和KG2,从中提取并解析为两个本体O1和O2,计算本体名称相似度。这里从两个方面求相似度:语言相似度以及语义相似度。
[0019]在本体中,计算名称的编辑距离以及语义相似度,并加权求和,得到本体的名称相似度。如下公式所示,Edit(*)指代两个词的编辑距离,表征了本体名称之间的语言相似度,e1,e2是指不同本体中概念的名称,WS(*)指代两个词的语义相似度,α1、α2分别为给与两个相似度的不同权重:
[0020]S
literal
=α1*Edit(e1,e2)+α2*Ws(e1,e2)
[0021]语义相似度的计算方法如下公式所示,通过表示学习的方式训练本体名称的词向量,运用离线训练的实体e
i
的词向量embed(e
i
),计算两个词语之间的词义相似度:
[0022]WS(e1,e2)=cos(embed(e1),embed(e2))
[0023]cos(*)表示计算余弦相似度。
[0024]通过对两个方面的相似度进行加权计算,得到总体的名称相似度。
[0025]步骤S2:计算属性相似度。
[0026]定义在本体中的属性为表达概念的某些性质特征的名称,两个概念的属性相似度就转化成对应的属性集合的相似度,通过计算集合的相似度可得到概念的属性相似度。
[0027]对于每个类别,都有属性,但是类的属性与实例的属性不尽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应混合本体映射的知识图谱融合方法,其特征在于,所述方法包括以下步骤:获取待融合的两个知识图谱文件,通过对文件进行解析得到对应的本体集合S1和S2;对于本体集合S1中的任一本体O1,本体集合S2中的任一本体O2,根据下式计算O1和O2的混合相似度:S(O1,O2)=σ1*S
literal
+σ2*S
structure
+σ3*S
instance
+σ4*S
property
+σ5*S
comment
式中S(O1,O2)表示本体O1与O2的混合相似度,S
literal
为两个本体之间的名称相似度、S
property
为两个本体之间的属性相似度、S
instance
为两个本体之间的实例相似度、S
structure
为两个本体之间的结构相似度,S
comment
为两个本体之间的注释相似度,σ1~σ5分别为相应维度相似度的权重;当S(O1,O2)大于指定阈值时,将两个O1和O2进行映射,在遍历两个知识图谱中的所有本体并进行映射后,完成对应两个知识图谱的融合。2.如权利要求1所述的基于自适应混合本体映射的知识图谱融合方法,其特征在于,所述名称相似度S
literal
的计算方式如下:S
literal
=α1*Edit(e1,e2)+α2*Ws(e1,e2)其中e1,e2是指不同本体中概念的名称,Edit(*)指代两个词的编辑距离,WS(*)指代两个词的语义相似度,WS(e1,e2)=cos(embed(e1),embed(e2))embed(*)表示词向量,cos(*)表示余弦相似度计算。3.如权利要求2所述的基于自适应混合本体映射的知识图谱融合方法,其特征在于,所述属性相似度S
property
的计算方式如下:S
property
=Jccard(p1,p2)Jccard(p1,p2)=N(p1∩p2)/N(p1∪p2)其中N(*)指代集合中元素的个数,p1、p2分别指代本体O1和O2的属性。4.如权利要求2所述的基于自适应混合本体映射的知识图谱融合方法,其特征在于,所述实例相似度S
instance
的计算方式如下S
instance
=∑S
literal
(ins
i
,ins
j
)/max(len(I1),len(I2))其中ins
i
和ins
j
指的是两个概念的实例集合中的实例,I1和I2指的是两个本体中的...

【专利技术属性】
技术研发人员:唐彦刘杰
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1