一种融合拓扑结构和语义信息的知识图谱补全方法技术

技术编号:42669488 阅读:32 留言:0更新日期:2024-09-10 12:24
本发明专利技术提供一种融合拓扑结构和语义信息的知识图谱补全方法,涉及自然语言处理/知识图谱(KG)领域。本发明专利技术将大型语言模型(LLM)与知识图谱相结合,首先通过随机游走采样获得含有拓扑结构信息的采样路径并输入到LLM中,利用LLM理解并获取知识图谱当中的关系语义信息,从而生成更准确和丰富的路径信息用于模型训练。最终将从知识图谱当中枚举出的所有规则过滤后输入到训练好的模型当中来提取出优质的逻辑规则用于知识图谱补全。在Family、Kinship、UMLS等多个数据集上的实验表明,本发明专利技术提出的融合拓扑结构和语义信息的知识图谱补全方法是有效的。

【技术实现步骤摘要】

本专利技术属于自然语言处理/知识图谱领域,提出了一种融合拓扑结构和语义信息的知识图谱补全方法


技术介绍

1、知识图谱普遍存在着三元组缺失(即链接缺失)问题。因缺失三元组的规模通常较大,人工寻找这些三元组代价高昂。因此,研究者们设计了知识图谱补全(kgc)任务。目的是发现新的关系、属性或实体,或者推断出缺失的信息,从而补全知识图谱当中缺失的三元组。目前主流的知识图谱补全方法有基于嵌入的知识图谱补全和基于逻辑规则学习的知识图谱补全。

2、实现知识图谱补全的一种主流方法是基于知识图嵌入(kge)的方法,它将实体和关系嵌入到连续低维向量空间中,并使用评分函数根据实体和关系嵌入计算每个三元组的分数。对嵌入进行训练,以便在知识图谱中观察到的事实比未观察到的事实具有更高的分数。这里的学习目标是最大化正样本(现有事实)的分数并最小化生成的负样本的分数。这方面的许多先前工作将关系视为实体之间的某种操作或映射函数。因此总体可以根据得分函数将先前的工作研究分为基于平移距离和基于语义匹配的模型。基于平移距离的模型采用基于距离的评分函数。其中,bordes等人提出的t本文档来自技高网...

【技术保护点】

1.一种融合拓扑结构和语义信息的知识图谱补全方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1的融合拓扑结构和语义信息的知识图谱补全方法,其特征在于,所述步骤1具体包括:

3.根据权利要求1的融合拓扑结构和语义信息的知识图谱补全方法,其特征在于,所述步骤3中包括:设计prompt模板,该prompt模板首先规定了逻辑规则的基本形式是由规则体和规则头构成的,并且让LLM学习到规则体和规则头中的路径都来自于给定的关系集合当中,接下来让LLM读取通过随机游走采样并自然语言化的逻辑规则ρ2进行语义理解,并结合常识生成新的采样规则ρ3;在生成规则的过程中,需要对照...

【技术特征摘要】

1.一种融合拓扑结构和语义信息的知识图谱补全方法,其特征在于,所述方法包括如下步骤:

2.根据权利要求1的融合拓扑结构和语义信息的知识图谱补全方法,其特征在于,所述步骤1具体包括:

3.根据权利要求1的融合拓扑结构和语义信息的知识图谱补全方法,其特征在于,所述步骤3中包括:设计prompt模板,该prompt模板首先规定了逻辑规则的基本形式是由规则体和规则头构成的,并且让llm学习到规则体和规则头中的路径都来自于给定的关系集合当中,接下来让llm读取通过随机游走采样并自然语言化的逻辑规则ρ2进行语义理解,并结合常识生成新的采样规则ρ3;在生成规则的过程中,需要对照知识图谱当中的关系集合对生成规则中的关系进行过滤,将不存在于知识图谱关系集合中的关系进行过滤,以获得更加准确的与知识图谱相符合的采样规则。

4.根据权利要求1的融合拓扑结构和语义信息的知识图谱补全方法,其特征在于,在步骤5中,将步骤4得到的最终采样规则一个个输入到滑动窗口编码器和全连接神经网络中,使得每一个规则体都被划分为短组合ξi,学习短组合ξi成为有意义的组合的概率f(ξi)并筛选出概率最高的短组合形成目标短组合,为逻辑规则中的规则体利用组合特性实现合并做准备。<...

【专利技术属性】
技术研发人员:相艳赵志永线岩团黄于欣
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1