当前位置: 首页 > 专利查询>北京大学专利>正文

一种异构知识图谱融合方法及系统技术方案

技术编号:32448952 阅读:19 留言:0更新日期:2022-02-26 08:17
本发明专利技术涉及一种异构知识图谱融合方法及系统,针对现有技术存在着单一结构信息难以区分相同概念下的不同实体以及有限的训练数据限制了基于知识图谱嵌入方法的实体嵌入表示学习准确性等问题,本发明专利技术提供一种融合结构信息与属性信息的异构知识图谱融合方法,本发明专利技术的效果在于,充分利用图谱中的两种信息:实体结构和实体属性,通过知识表示学习模型得到基于结构的实体表示向量,通过基于共享注意力机制的孪生神经网络模型来学习基于实体属性的实体表示。每次迭代两种信息找到的最佳匹配都打上标记,作为新标记数据补充到训练集中,使得两种信息的模型相互辅助,迭代增强,最终得到准确度较高的实体对齐结果。到准确度较高的实体对齐结果。到准确度较高的实体对齐结果。

【技术实现步骤摘要】
一种异构知识图谱融合方法及系统


[0001]本专利技术属于知识图谱
,具体涉及一种异构知识图谱融合方法及系统。

技术介绍

[0002]近年来,知识图谱在信息检索、推荐系统、机器理解等技术中发挥越来越重要作用。不同的机构根据各自不同的需求和数据来源来构建知识图谱,这就导致了知识图谱在同一领域具有不同形式。例如,在威海智慧城市知识图谱中的一个实体“/resource/康美医疗健康中心”和威海医疗知识图谱中的“康美医疗机构”都指的是威海市的某家医疗机构,但是由不同的数据构造的知识图谱,会建立两个不同的实例节点。很多领域知识图谱都是独立生成和发展,虽然实体命名习惯、表示形式和实体关系有可能不相同,但表示内容一致且可以相互补充。因此,整合不同的知识图谱形成更大的、统一的、一致的知识形式对知识推理和问答显得尤为重要。为了融合不同的知识图谱,一个首要任务是识别不同知识图谱中表示同一现实世界对象的实体,这通常被称为实体对齐问题。实体对齐是将不同来源知识图谱中的实体进行对齐过程,是知识图谱融合的首要步骤,良好的实体对齐方法有助于使得知识连接更加稠密,避免信本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种异构知识图谱融合方法,包括以下步骤:S1:对待匹配知识图谱数据进行整理,各种存在不同来源、不同结构的数据独立生成的知识图谱形成知识图谱训练集,包括结构训练集和实体属性训练集;S2:通过知识图谱表示学习技术从深度学习模型中学习实体匹配需要的知识图谱结构信息和知识图谱属性信息,从中学习实体表示向量;S3:根据实体表示向量,计算两个领域知识图谱中实体间的相似度,所述相似度计算方法基于欧氏距离或者Cosine距离;S4:根据计算的实体相似度找到实体之间最佳的匹配,所述最佳匹配实体为实体匹配集合,即基于结构信息的实体匹配集合和基于属性信息的实体匹配集合。2.如权利要求1所述的一种异构知识图谱融合方法,其特征是:在步骤S1之前还包括步骤S11:由已经对齐的图谱数据集生成初始训练集;S12:经过结构嵌入学习模型,设定若干迭代次数,学习实体结构的嵌入表示;S13:对齐实体并将可信度较高的最佳匹配实体集合补充到训练集中;S14:利用补充后的训练集训练属性嵌入学习模型,设定若干迭代次数,对齐实体并进一步补充训练集,用来继续训练结构嵌入模型。3.如权利要求2所述的一种异构知识图谱融合方法,其特征是:步骤S4还包括将可信度较高的最佳匹配实体集合补充到步骤S11中的初始训练集中,补充初始训练集的规模,使得结构信息和属性信息能够在迭代训练中相互促进。4.如权利要求3所述的一种异构知识图谱融合方法,其特征是:补充的最佳匹配实体集合只包含正样本,并不使用最近邻方法采样负样本。5.如权利要求1所述的一种异构知识图谱融合方法,其特征是:步骤S2中针对结构信息学习,利用知识表示学习技术对实体三元组进行学习,将领域知识图谱的实体表示成蕴含结构信息的向量;实体的属性信息包括实体的属性类别和对应的属性值,针对实体属性学习,采用基于共享注意力机制的孪生神经网络模型,来学习基于属性的实体表示。6.如权利要求5所述的一种异构知识图谱融合方法,其特征是:针对实体结构信息学习,基于限制损失函数,本方法采用目标函数O
TSR
其中γ1,γ2是两个超参数,限制正样本和负样本的分数,μ>0表示平衡负样本的超参数,f(τ)≤γ1和f(τ

)≥γ2。7.如权利要求3所述的一种异构知识图谱融合方法,其特征是:步骤实体属性信息学习包括在处理实体属性信息过程中,建立“孪生网络”处理两个知识图谱的属性信息;将不同数据结构的属性值都做字符串处理,建立字符级属性值表示学习模型,学习实体属性值的信息;构建自注意力机制学习不同实体属性的重要程度,并提出共享注意力机制,使属性类别的嵌入表示与属性值的嵌入表示共享相同的注意力权重。8.如权利要求7所述的一种异构知识图谱融合方法,其特征是:所述注意力权重的计算
方式如下:α
i
=softmax(Q
T
W
a
q
i
)其中α
i
代表第i个属性的权重,Q代...

【专利技术属性】
技术研发人员:杨恺王亚沙赵俊峰单中原邹佩聂李瑞庆
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1