System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种知识图谱的实体对齐方法、装置、存储介质及设备制造方法及图纸_技高网

一种知识图谱的实体对齐方法、装置、存储介质及设备制造方法及图纸

技术编号:41329443 阅读:5 留言:0更新日期:2024-05-13 15:07
本申请公开了一种知识图谱的实体对齐方法、装置、存储介质及设备,该方法包括:首先对获取到的第一知识图谱和第二知识图谱中各个实体的属性关系进行标准化处理,得到各个实体的标准化属性关系,然后通过对比学习的方式,提取各个实体的特征向量;接着通过计算第一知识图谱中目标实体的特征向量和第二知识图谱中各个实体的特征向量之间的相似度,从第二知识图谱中筛选出满足预设条件的K个候选实体;再将目标实体的相关信息、K个候选实体的相关信息和预设专家规则,结合prompt,输入预设的大语言模型,得到目标实体与K个候选实体的对齐结果;依次类推,将第一知识图谱中其他实体分别作为目标实体进行前述对齐处理,得到准确性更高的实体对齐结果。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种知识图谱的实体对齐方法、装置、存储介质及设备


技术介绍

1、随着互联网的快速发展,促使着各领域建立了越来越多包含互补信息的大规模知识图谱(knowledge graph,简称kg)。但这些知识图谱通常都是独立设计的,互相之间会存在异构和冗余问题,如何对齐存在于不同知识图谱中的实体,以使得不同知识图谱之间可以高效协调,充分发挥知识的价值显得尤为重要。

2、现有的知识图谱的实体对齐方法通常包括两种:一种是基于transe系列模型的实体对齐方法,这种方法在处理复杂关系时存在局限性,实体区分度不高,得到的语义表示空间质量也较低;另一种是基于图神经网络(graph neural network,简称gnn)系列模型的实体对齐方法,这种方法堆叠多层图神经网络,会造成噪声的传播,对于相同的邻居实体,还会产生错误的对齐结果。并且,前述两种现有的实体对齐方法均很难与专家规则结合,将会导致对齐结果不够准确,从而降低了融合后的kg的应用有效性。


技术实现思路

1、本申请实施例的主要目的在于提供一种知识图谱的实体对齐方法、装置、存储介质及设备,能够有效提高知识图谱之间的实体对齐的准确度,进而提高融合后的kg的应用有效性。

2、本申请实施例提供了一种知识图谱的实体对齐方法,包括:

3、获取第一知识图谱和第二知识图谱中各个实体的属性关系,并对获取到的属性关系进行标准化处理,得到所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系;p>

4、根据所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系,通过对比学习的方式,提取所述第一知识图谱中目标实体的特征向量和所述第二知识图谱中各个实体的特征向量;

5、通过计算所述目标实体的特征向量和所述第二知识图谱中各个实体的特征向量之间的相似度,从所述第二知识图谱中筛选出满足预设条件的k个候选实体;所述k为大于0的正整数;

6、将所述目标实体的相关信息、所述k个候选实体的相关信息和预设专家规则,结合提示指令prompt,输入至预设的大语言模型,得到大语言模型输出的针对所述目标实体与所述k个候选实体的对齐结果;依次类推,将所述第一知识图谱中其他实体分别作为目标实体进行前述对齐步骤的处理,得到所述第一知识图谱和第二知识图谱的实体对齐结果。

7、一种可能的实现方式中,所述获取第一知识图谱和第二知识图谱中各个实体的属性关系,并对获取到的属性关系进行标准化处理,得到所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系,包括:

8、获取第一知识图谱和第二知识图谱中各个实体的属性关系,并利用预设的大语言模型,对获取到的属性关系进行语义聚类,得到聚类结果;

9、对所述聚类结果的各个聚类簇中同义的属性关系进行合并,得到合并结果,并根据所述合并结果,对所述第一知识图谱和第二知识图谱中各个实体的属性关系进行标准化处理,得到各个实体对应的标准化属性关系;

10、对各个实体对应的标准化属性关系的单位进行标准化处理,得到各个标准化属性关系对应的标准单位;

11、利用预设的大语言模型,按照所述标准单位,对各个标准化属性关系对应的属性值进行标准化处理,得到所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系和标准化属性值。

12、一种可能的实现方式中,所述利用预设的大语言模型,对获取到的属性关系进行语义聚类,得到聚类结果,包括:

13、从获取到的属性关系中随机选择一个属性关系作为目标聚类簇,以及从剩下的属性关系中随机选择一个属性关系作为候选属性关系,并利用预设的大语言模型,判断所述候选属性关系与所述目标聚类簇是否存在语义等价性;

14、若是,则将所述候选属性关系加入所述目标聚类簇中;若否,则将所述候选属性关系作为一个新的目标聚类簇;依次类推,直至实现对获取到的所有属性关系的语义聚类,得到聚类结果。

15、一种可能的实现方式中,所述对所述聚类结果的各个聚类簇中同义的属性关系进行合并,得到合并结果,并根据所述合并结果,对所述第一知识图谱和第二知识图谱中各个实体的属性关系进行标准化处理,得到各个实体对应的标准化属性关系,包括:

16、从所述聚类结果的各个聚类簇中随机选择一个聚类簇,并确定所述聚类簇中各个属性关系的统一属性名;

17、依次对所述聚类结果中其他聚类簇中的各个属性关系进行同义合并,得到各个聚类簇中各个属性关系对应的统一属性名;

18、根据各个聚类簇中各个属性关系对应的统一属性名,对所述第一知识图谱和第二知识图谱中各个实体的属性关系进行修改,使得各个属性关系被标准化为对应的统一属性名,得到各个实体对应的标准化属性关系。

19、一种可能的实现方式中,所述根据所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系,通过对比学习的方式,提取所述第一知识图谱中目标实体的特征向量和所述第二知识图谱中各个实体的特征向量,包括:

20、根据所述第一知识图谱中目标实体对应的标准化属性关系,确定所述目标实体相关信息的文本内容;以及根据所述第二知识图谱中各个实体对应的标准化属性关系,确定所述第二知识图谱中各个实体相关信息的文本内容;

21、将所述目标实体相关信息的文本内容输入预先构建的向量表示模型,预测得到所述目标实体的特征向量,以及将所述第二知识图谱中各个实体相关信息的文本内容输入所述向量表示模型,预测得到所述第二知识图谱中各个实体的特征向量;所述向量表示模型是基于bert预训练模型,利用正样本实体相关信息的文本内容和负样本实体相关信息的文本内容进行对比学习训练得到的。

22、一种可能的实现方式中,所述向量表示模型的构建方式如下:

23、获取第一样本知识图谱中样本实体相关信息的文本内容,并获取第二样本知识图谱中正样本实体相关信息的文本内容,以及获取第二样本知识图谱中负样本实体相关信息的文本内容;

24、将所述样本实体相关信息的文本内容输入bert预训练模型进行分词处理,得到样本实体的字符串列表,并将所述样本实体的字符串列表转换为样本实体的词汇索引列表,以及对所述样本实体的词汇索引列表进行编码,生成所述样本实体的特征向量;

25、将所述正样本实体相关信息的文本内容输入所述bert预训练模型进行分词处理,得到正样本实体的字符串列表,并将所述正样本实体的字符串列表转换为正样本实体的词汇索引列表,以及对所述正样本实体的词汇索引列表进行编码,生成所述正样本实体的特征向量;

26、将所述负样本实体相关信息的文本内容输入bert预训练模型进行分词处理,得到负样本实体的字符串列表,并将所述负样本实体的字符串列表转换为负样本实体的词汇索引列表,以及对所述负样本实体的词汇索引列表进行编码,生成所述负样本实体的特征向量;

27、利用所述样本实体的特征向量、所述正样本实体的特征向量和所述负本文档来自技高网...

【技术保护点】

1.一种知识图谱的实体对齐方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一知识图谱和第二知识图谱中各个实体的属性关系,并对获取到的属性关系进行标准化处理,得到所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系,包括:

3.根据权利要求2所述的方法,其特征在于,所述利用预设的大语言模型,对获取到的属性关系进行语义聚类,得到聚类结果,包括:

4.根据权利要求2所述的方法,其特征在于,所述对所述聚类结果的各个聚类簇中同义的属性关系进行合并,得到合并结果,并根据所述合并结果,对所述第一知识图谱和第二知识图谱中各个实体的属性关系进行标准化处理,得到各个实体对应的标准化属性关系,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系,通过对比学习的方式,提取所述第一知识图谱中目标实体的特征向量和所述第二知识图谱中各个实体的特征向量,包括:

6.根据权利要求5所述的方法,其特征在于,所述向量表示模型的构建方式如下:

7.根据权利要求6所述的方法,其特征在于,所述目标损失函数用于拉近样本实体的特征向量和正样本实体的特征向量的距离,以及拉开样本实体的特征向量和负样本实体的特征向量的距离。

8.根据权利要求7所述的方法,其特征在于,所述目标损失函数为三元组损失函数。

9.一种知识图谱的实体对齐装置,其特征在于,包括:

10.一种知识图谱的实体对齐设备,其特征在于,包括:处理器、存储器、系统总线;

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。

...

【技术特征摘要】

1.一种知识图谱的实体对齐方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取第一知识图谱和第二知识图谱中各个实体的属性关系,并对获取到的属性关系进行标准化处理,得到所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系,包括:

3.根据权利要求2所述的方法,其特征在于,所述利用预设的大语言模型,对获取到的属性关系进行语义聚类,得到聚类结果,包括:

4.根据权利要求2所述的方法,其特征在于,所述对所述聚类结果的各个聚类簇中同义的属性关系进行合并,得到合并结果,并根据所述合并结果,对所述第一知识图谱和第二知识图谱中各个实体的属性关系进行标准化处理,得到各个实体对应的标准化属性关系,包括:

5.根据权利要求1所述的方法,其特征在于,所述根据所述第一知识图谱和第二知识图谱中各个实体对应的标准化属性关系,通过对比...

【专利技术属性】
技术研发人员:李可欣张浩宇吴飞方四安
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1