一种知识图谱自动补全方法技术

技术编号:33251153 阅读:46 留言:0更新日期:2022-04-27 18:13
本发明专利技术提供一种知识图谱自动补全方法,对于图谱中每一实体,统计其连接的关系边的种类和指向情况生成连边信息项集,通过对实体连边信息项集进行频繁二项集挖掘并生成关联规则,区分主要连边信息并进一步生成逆向关联规则,由关联规则生成实体的缺失连边信息并作为待补全三元组。此外,在处理过程中将会剔除明显的多对一关系的头实体连边信息以及明显的一对多关系的尾实体连边信息。解决了传统图谱补全算法无法自动获得待补全三元组的问题,为图谱补全算法提供了对信息搜索和补全的指导,节约时间和成本,提高效率和准确率,能提升在生物医学、金融信息、安保防护等多种领域下涉及图谱的算法表现。图谱的算法表现。图谱的算法表现。

【技术实现步骤摘要】
一种知识图谱自动补全方法


[0001]本专利技术涉及知识图谱领域,具体涉及一种知识图谱自动补全方法。

技术介绍

[0002]知识图谱已成功应用于智能搜索与推荐、智能问答、大数据分析决策、智慧医疗等多种应用场景。知识图谱以结构化的形式描述现实世界中广义实体之间的联系,然而,因构建图谱时原始数据的缺失或抽取算法的限制,知识图谱普遍存在着信息不完备的问题,即知识图谱中的关系缺失或者属性缺失。现有的知识图谱补全算法主要分为利用互联网信息的开放域图谱补全算法和仅利用图谱已有信息的封闭域图谱补全算法。大多算法的评价过程为:在公开数据集内利用训练集数据完成测试集数据的补全任务,按补全正确率排名评价算法优良程度。
[0003]现有一般的生成待补全三元组的方法为:由实体集和关系集分别遍历并组合获得,在补全算法内部设置补全得分阈值,将大于阈值的结果补全进入图谱,然而这种方法并没有考虑待补全关系的存在合理性。
[0004]公开号为CN112836064A公开了一种知识图谱补全方法、装置、存储介质及电子设备,属于计算机
所述知识图谱补全方法包括本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种知识图谱自动补全方法,其特征在于,所述方法包括:S1:生成连边信息项总集:对每个实体构建一个连边信息项集,获取所有与某一实体连接的关系边并区分关系边的指向方向,在关系名称字段后添加相应关系方向后缀并加入连边信息项集,遍历知识图谱中每一个实体,得到连边信息项总集;S2:挖掘频繁二项集并生成关联规则:由所述连边信息项总集,生成由连边信息项两两组合成的频繁二项集和所述频繁二项集的频度;对所述频繁二项集中的两项分别作为第一规则体和第一规则头,计算置信度和提升度,若所述置信度和提升度大于第一置信度阈值和第一提升度阈值,将所述第一规则体和第一规则头保留进入关联规则集合Rule_Set1;建立规则体中每一项到关联规则的索引;S3:在关联规则集合中筛选已有关联规则,生成潜在可逆向规则集合Rule_Set3:在所述规则集合中应用第二置信度阈值和第二提升度阈值筛选出关联规则子集Rule_Set2,然后统计所述关联规则子集Rule_Set2中各规则头中连边信息项在该子集中作为规则头出现的频度,判断各连边信息项的频度是否大于第二频度阈值,将大于的加入一个新集合,将所述新集合作为潜在可逆向规则集合Rule_Set3;所述第二频度阈值为图谱节点度的平均值;S4:筛选潜在可逆向规则集合Rule_Set3并生成逆向关联规则,对所述潜在可逆向规则集合Rule_Set3中的每一条关联规则:将其原规则体作为规则头,将其原规则头作为规则体并生成一个新规则,判断所述新规则的规则头中的连边信息项是否已出现于关联规则子集Rule_Set2其余关联规则的规则头中,若是则放弃新生成的该条关联规则的判断,若新规则头未出现于规则子集Rule_Set2其余规则的规则头中,则将该新生成的关联规则加入关联规则集合Rule_Set1,同时设置该条关联规则的置信度为第二置信度阈值,设置该条关联规则的提升度为第二提升度阈值;S5:应用连边信息项总集和关联规则集合Rule_Set1生成待补全三元组;S6:根据生成的待补全三元组补全知识图谱。2.根据权利要求1所述的一种知识图谱自动补全方法,其特征在于,所述在关系名称字段后添加相应关系方向后缀的具体方法包括:后缀“_H”表示实体作为头实体与关系相连,后缀“_T”表示实体作为尾实体与关系相连;对于重复的同名边,在所述方向后缀基础上进一步增加标号后缀。3.根据权利要求2所述的一种知识图谱自...

【专利技术属性】
技术研发人员:陶建华吴中天张大伟刘通杨国花
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1