一种基于框架匹配的百科图谱知识融合方法技术

技术编号:35035540 阅读:25 留言:0更新日期:2022-09-24 23:11
本发明专利技术公开了一种基于框架匹配的百科图谱知识融合方法,该方法将百科知识融合过程划分为逻辑层、数据层知识融合两个阶段。逻辑层数据融合阶段,通过概念对齐、属性统一等过程,实现多来源百科数据逻辑描述统一、语义明确;数据层知识融合阶段,基于框架匹配的结果,通过实体对齐、属性融合,实现不同来源百科图谱实体自动融合。本发明专利技术通过对概念一致性判断、概念融合、概念属性融合实现图谱逻辑层数据,输出融合后图谱概念及属性;在逻辑层数据基础上,通过实体对齐、实体属性消歧实现图谱数据层实体及其关系融合,实现多来源数据逻辑统一、语义信息明确,输出融合后的知识图谱,进而最终实现多来源百科图谱数据自动融合。最终实现多来源百科图谱数据自动融合。最终实现多来源百科图谱数据自动融合。

【技术实现步骤摘要】
一种基于框架匹配的百科图谱知识融合方法


[0001]本专利技术涉及知识图谱
,尤其涉及到一种基于框架匹配的百科图谱知识融合方法。

技术介绍

[0002]知识不是数据和信息的简单积累,指可用于指导实践的信息,是人们在改造世界的实践中所获得的认识和经验的总和。包括实践过程中认识客观世界而形成的形式化成果、对事实的描述或在教育和实践中获得的技能,以及从各个途径中获得的经过提升总结与凝练的系统性的认识。
[0003]由于知识存在场景不同、知识获取手段的不同使得知识存储形态也不同。本项目涉及的知识主要为百科图谱知识。百科图谱是一种以百科类网站作为数据构建源构建而成的知识图谱。知识融合指将多个来源的知识进行融合,指通过对多个相关知识的对齐、关联和合并,使其成为一个有机整体,消除各来源知识的结构化差异和语义鸿沟,形成更完整知识的过程。框架匹配,也可称为图谱逻辑层融合,指对图谱的概念、属性、关系等知识描述体系进行匹配和融合。不同知识图谱的概念层次体系各不相同,而融合后的知识图谱只能有一个概念层次体系。框架匹配的关键是找到等价概念。由于概念体系非常重要且规模可控,目前主流的系统主要采用人工方法进行匹配以保证融合的质量,融合效率和准确性不高。

技术实现思路

[0004]本专利技术的主要目的在于提供一种基于框架匹配的百科图谱知识融合方法,将百科知识融合过程划分为逻辑层、数据层知识融合两个阶段。逻辑层数据融合阶段,通过概念对齐、属性统一等过程,实现多来源百科数据逻辑描述统一、语义明确;数据层知识融合阶段,基于框架匹配的结果,通过实体对齐、属性融合,实现不同来源百科图谱实体自动融合。
[0005]为实现上述目的,本专利技术提供一种基于框架匹配的百科图谱知识融合方法,所述方法包括以下步骤:
[0006]S1:获取若干个百科数据库的原始实体数据,存入待融合百科实体列表;
[0007]S2:提取每一个待融合百科实体的概念值和属性类型,生成候选概念

属性列表,并依次执行概念对齐和属性融合,获得融合后的概念值、属性类型和融合前的对应表;
[0008]S3:根据所述对应表,将待融合百科实体列表中原始实体数据的概念值与属性类型替换为融合后的概念值与属性类型,获得融合实体数据,并根据原始实体数据与融合实体数据的概念相似度与属性相似度执行实体融合,获得融合后的百科实体。
[0009]可选的,所述待融合百科实体列表的表达式为:
[0010]{X
entity
}={'labels':[label1,...,label
n
],'properties':{'pro1':'pro1_value',...,'pro3':'pro3_value'}}其中,'labels'表示实体的概念列表,label
i
表示实体具体所属的概念值,'properties'表示实体的属性,pro1_value与pro3_value分别为属性类型pro1与pro3的属性值。
[0011]可选的,所述提取每一个待融合百科实体的概念值和属性类型,生成候选概念

属性列表步骤,具体包括:
[0012]从待融合百科实体列表{X
entity
}中提取包含概念label
i
的实体的所有属性类型,存入候选概念

属性列表中{concepts}=[{'label
i
':['pro
i1
','pro
i2
',...,'pro
in
']}],其中,pro
i
为{X
entity
}中label
i
对应的属性类型。
[0013]可选的,所述概念对齐,具体包括:
[0014]S201:构建已融合概念列表fuse_concepts以及融合后概念与原始概念对应表concept_ori2fused,初始均为空;
[0015]S202:从候选概念

属性列表concepts中任选一概念concept,若已融合概念列表fuse_concepts为空,将concept加入fuse_concepts,否则,执行步骤S203;
[0016]S203:依次计算concept与fuse_concepts中任一概念fuse_concept的概念值相似度和属性类型相似度;
[0017]S204:根据概念值相似度和属性类型相似度,合并、去重concept、fuse_concept的概念值以及属性类型,更新融合后概念与原始概念对应表concept_ori2fused。
[0018]可选的,所述属性融合,具体包括:
[0019]S211:构建已融合属性类字典fuse_pros,初始为空;
[0020]S212:依次选取已融合概念列表fuse_concepts中概念值,读取该概念包含的所有属性类型pro_labels;
[0021]S213:依次选择pro_labels中的属性类型label,若fuse_pros为空,将label作为键及对应的值加入fuse_pros;否则依次计算label与fuse_pros中所有键的文本余弦相似度;
[0022]S214:根据label与fuse_pros中所有键的文本余弦相似度,将label作为对应的键值加入fuse_pros,输出已融合属性类字典fuse_pros,获得融合后属性与原始属性对应表pro_ori2fused。
[0023]可选的,所述步骤S3,具体包括:
[0024]S301:输入待融合百科实体列表{X
entity
},基于融合后概念与原始概念对应表concept_ori2fused、融合后属性与原始属性对应表pro_ori2fused,将原始实体数据中的概念值与属性类型替换成融合后的值,并构建已融合实体表fused_entities,初始为空;
[0025]S302:依次从待融合百科实体列表{X
entity
}中任选一实体数据ori_data,若fused_entities为空,将ori_data加入fused_entities,否则执行步骤S303;
[0026]S303:依次计算实体ori_data与已融合实体表中任一实体fused_entity概念、属性两个维度的相似程度concept_sim、pros_sims;若存在相似度均大于阈值,执行步骤S304,否则,将ori_data加入fused_entities中;
[0027]S304:合并、去重ori_data、fused_entity两个实体的概念值,并输出融合后百科实体fused_entities。
[0028]本专利技术实施例提出的一种基于框架匹配的百科图谱知识融合方法,该方法将百科知识融合过程划分为逻辑层、数据层知识融合两个阶段。逻辑层数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于框架匹配的百科图谱知识融合方法,其特征在于,所述方法包括以下步骤:S1:获取若干个百科数据库的原始实体数据,存入待融合百科实体列表;S2:提取每一个待融合百科实体的概念值和属性类型,生成候选概念

属性列表,并依次执行概念对齐和属性融合,获得融合后的概念值、属性类型和融合前的对应表;S3:根据所述对应表,将待融合百科实体列表中原始实体数据的概念值与属性类型替换为融合后的概念值与属性类型,获得融合实体数据,并根据原始实体数据与融合实体数据的概念相似度与属性相似度执行实体融合,获得融合后的百科实体。2.如权利要求1所述的基于框架匹配的百科图谱知识融合方法,其特征在于,所述待融合百科实体列表的表达式为:{X
entity
}={'labels':[label1,...,label
n
],'properties':{'pro1':'pro1_value',...,'pro3':'pro3_value'}}其中,'labels'表示实体的概念列表,label
i
表示实体具体所属的概念值,'properties'表示实体的属性,pro1_value与pro3_value分别为属性类型pro1与pro3的属性值。3.如权利要求2所述的基于框架匹配的百科图谱知识融合方法,其特征在于,所述提取每一个待融合百科实体的概念值和属性类型,生成候选概念

属性列表步骤,具体包括:从待融合百科实体列表{X
entity
}中提取包含概念label
i
的实体的所有属性类型,存入候选概念

属性列表中{concepts}=[{'label
i
':['pro
i1
','pro
i2
',...,'pro
in
']}],其中,pro
i
为{X
entity
}中label
i
对应的属性类型。4.如权利要求2所述的基于框架匹配的百科图谱知识融合方法,其特征在于,所述概念对齐,具体包括:S201:构建已融合概念列表fuse_concepts以及融合后概念与原始概念对应表concept_ori2fused,初始均为空;S202:从候选概念

属性列表concepts中任选一概念...

【专利技术属性】
技术研发人员:杨露
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1