一种基于自适应混合本体映射的知识图谱融合方法技术

技术编号：27292217 阅读：15 留言：0更新日期：2021-02-06 12:01

本发明专利技术公开了一种基于自适应混合本体映射的知识图谱融合方法，方法包括：获取待融合的两个知识图谱文件，通过对文件进行解析得到对应的本体集合S1和S2；对于本体集合S1中的任一本体O1，本体集合S2中的任一本体O2，计算O1和O2的混合相似度，所述混合相似度是两个本体之间的名称相似度、属性相似度、实例相似度、结构相似度以及注释相似度的加权和；当混合相似度大于指定阈值时，将两个O1和O2进行映射，在遍历两个知识图谱中的所有本体并进行映射后，完成对应两个知识图谱的融合。本发明专利技术对知识图谱中字面、结构、注释、属性、实例等单元特征进行多方位综合提取，并通过优化的权重策略实现动态自适应调整权重，使得两个知识图谱达到充分、深度融合。深度融合。深度融合。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应混合本体映射的知识图谱融合方法

[0001]本专利技术涉及自然语言处理
，具体涉及一种知识图谱融合方法。

技术介绍

[0002]知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形，通过可视化技术描述知识资源及其载体，其本质上是一种揭示实体之间关系的语义网络。最近几年知识图谱在知识表示和建模中起着举足轻重的作用，人们也已经建立了很多描述通用知识的知识图谱以及专业领域知识图谱，并将其应用于机器翻译、信息检索、知识推理等领域。随着人们对知识掌握不断拓展和深入，不同领域知识的交叉和基于不同大规模知识图谱的系统间交互都提出了知识图谱的融合需求。
[0003]为了对大量异构、多源大数据形成的知识图谱进行有效融合，人们将本体映射(Ontology Mapping)的概念应用于知识图谱融合。本体是计算机科学、数据科学许多应用问题的数据基础。本体的作用是表达知识。在本体中，知识可以被正式地表达为一系列的领域相关概念，以及这些概念之间的相互关系。本体可以被用来为一个知识领域建立模型，并且支持对这个模型中的实体进行推理。本体的出现给计算机科学领域以及知识工程领域带来知识载体，利用本体，可以在不同的人或应用程序之间共享一组有结构的信息，并达成理解上的共识。本体映射是决定本体中概念一致性的过程。本体映射领域已有不少方法(参见权威著作：Kalfoglou,Y.,&Schorlemmer,M.(2003).Ontology mapping:the state of the art.The kno...

【技术保护点】

【技术特征摘要】
1.一种基于自适应混合本体映射的知识图谱融合方法，其特征在于，所述方法包括以下步骤：获取待融合的两个知识图谱文件，通过对文件进行解析得到对应的本体集合S1和S2；对于本体集合S1中的任一本体O1，本体集合S2中的任一本体O2，根据下式计算O1和O2的混合相似度：S(O1，O2)＝σ1*S
literal
+σ2*S
structure
+σ3*S
instance
+σ4*S
property
+σ5*S
comment
式中S(O1，O2)表示本体O1与O2的混合相似度，S
literal
为两个本体之间的名称相似度、S
property
为两个本体之间的属性相似度、S
instance
为两个本体之间的实例相似度、S
structure
为两个本体之间的结构相似度，S
comment
为两个本体之间的注释相似度，σ1～σ5分别为相应维度相似度的权重；当S(O1，O2)大于指定阈值时，将两个O1和O2进行映射，在遍历两个知识图谱中的所有本体并进行映射后，完成对应两个知识图谱的融合。2.如权利要求1所述的基于自适应混合本体映射的知识图谱融合方法，其特征在于，所述名称相似度S
literal
的计算方式如下：S
literal
＝α1*Edit(e1，e2)+α2*Ws(e1，e2)其中e1，e2是指不同本体中概念的名称，Edit(*)指代两个词的编辑距离，WS(*)指代两个词的语义相似度，WS(e1，e2)＝cos(embed(e1)，embed(e2))embed(*)表示词向量，cos(*)表示余弦相似度计算。3.如权利要求2所述的基于自适应混合本体映射的知识图谱融合方法，其特征在于，所述属性相似度S
property
的计算方式如下：S
property
＝Jccard(p1，p2)Jccard(p1，p2)＝N(p1∩p2)/N(p1∪p2)其中N(*)指代集合中元素的个数，p1、p2分别指代本体O1和O2的属性。4.如权利要求2所述的基于自适应混合本体映射的知识图谱融合方法，其特征在于，所述实例相似度S
instance
的计算方式如下S
instance
＝∑S
literal
(ins
i
，ins
j
)/max(len(I1)，len(I2))其中ins
i
和ins
j
指的是两个概念的实例集合中的实例，I1和I2指的是两个本体中的...

【专利技术属性】
技术研发人员：唐彦，刘杰，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人