System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于知识图谱训练图编码器的方法及装置制造方法及图纸_技高网

一种基于知识图谱训练图编码器的方法及装置制造方法及图纸

技术编号:43286769 阅读:16 留言:0更新日期:2024-11-12 16:08
本说明书实施例提供了一种基于知识图谱训练图编码器的方法及装置。所述知识图谱包括以三元组形式记录的多个节点及其之间的连接边。所述方法包括:根据预设搜索策略,从所述知识图谱中采样节点和连接边,得到若干子图。将第一子图输入所述图编码器,得到第一子图所对应的图表征。基于第二子图中各个三元组所具有的文本语料,确定第一描述文本。将所述第一描述文本输入文本编码器,得到对应的文本表征。基于所述图表征与文本表征之间的表征差异,确定由第一子图和第一描述文本构成的第一样本对的对比损失。根据多个样本对各自的对比损失,更新所述图编码器。

【技术实现步骤摘要】

本说明书一个或多个实施例涉及机器学习和知识图谱,尤其涉及一种基于知识图谱训练图编码器的方法及装置


技术介绍

1、知识图谱是基于图结构数据建立的一种可以表达实体以及实体之间关系的数据结构,其在多个领域中扮演着关键角色,尤其在描绘知识实体间的复杂结构关系方面表现突出。一些能够反映现实世界中各种主体之间关系的数据集,例如社交网络中的关系、分子结构关系等等,往往以知识图谱作为承载形式。

2、知识图谱的使用离不开特征提取,也就是将知识图谱中所包含的各个实体以及实体之间的关系用向量的形式进行表征。然而,知识图谱中既包括图结构信息,又包含实体或关系本身的语义信息,不同类型信息的混合,为知识图谱的表征带来了挑战。

3、因此,希望能有改进的方案,更好地对知识图谱进行特征提取和表征。


技术实现思路

1、本说明书的一个或多个实施例描述了一种基于知识图谱训练图编码器的方法及装置,通过对比学习,有效地利用预训练的文本编码器对于知识图谱数据的文本处理能力,优化图编码器,使之与文本编码器对齐,提升图编码器与文本编码器在知识图谱处理上的融合度,在知识图谱的特征处理上实现图模态和文本模态的融合。

2、根据第一方面,提供了一种基于知识图谱训练图编码器的方法,所述知识图谱包括以三元组形式记录的多个节点及其之间的连接边;所述方法包括:

3、根据预设搜索策略,从所述知识图谱中采样节点和连接边,得到若干子图。

4、将第一子图输入所述图编码器,得到第一子图所对应的图表征。

5、基于第二子图中各个三元组所具有的文本语料,确定第一描述文本。

6、将所述第一描述文本输入文本编码器,得到对应的文本表征。

7、基于所述图表征与文本表征之间的表征差异,确定由第一子图和第一描述文本构成的第一样本对的对比损失。

8、根据多个样本对各自的对比损失,更新所述图编码器。

9、根据一种实施方式,所述文本编码器为经过预训练之后得到的文本编码器。

10、根据一种实施方式,所述基于所述图表征与文本表征之间的表征差异,确定由第一子图和第一描述文本构成的第一样本对的对比损失,包括:

11、使用第一映射神经网络对所述图表征进行投影,得到第一投影。

12、使用第二映射神经网络对所述文本表征进行投影,得到第二投影,所述第二投影与第一投影处于同一向量空间。

13、基于所述第一投影与第二投影之间的差异,确定所述表征差异。

14、根据以上实施方式的一种实现,根据所述对比损失,对所述第一映射神经网络与第二映射神经网络的参数进行更新。

15、根据一种实施方式,确定由第一子图和第一描述文本构成的第一样本对的对比损失,包括:

16、若所述第一子图与第二子图为同一子图,所述对比损失与所述表征差异呈正相关。

17、若所述第一子图与第二子图为不同子图,所述对比损失与所述表征差异呈负相关。

18、根据一种实施方式,所述多个样本对包括正样本对和负样本对,其中,正样本对中的描述文本用于描述对应子图,负样本对中的描述文本不是用于描述对应子图。

19、根据一种实施方式,所述预设搜索策略,包括:

20、以目标节点为起始,根据预先设定的搜索深度和/或搜索宽度,执行广度优先或深度优先的遍历搜索。

21、根据一种实施方式,所述预设搜索策略,包括:

22、以目标节点为起始,执行预定步数的随机游走搜索。

23、根据一种实施方式,所述确定第一描述文本,包括:

24、对于任一所述三元组,将其中节点所代表的实体的描述文本,与连接边所代表的语义关联的描述文本进行拼接,作为所述文本语料。

25、将所述第二子图中各个三元组对应的文本语料进行拼接,得到所述第一描述文本。

26、根据一种实施方式,所述得到第一子图所对应的图表征,包括:

27、使用所述图编码器对所述第一子图进行编码,得到各个节点的节点表征。

28、基于所述各个节点的节点表征,进行池化操作,得到所述图表征。

29、根据第二方面,提供了一种基于知识图谱训练图编码器的装置,所述知识图谱包括以三元组形式记录的多个节点及其之间的连接边;所述装置包括:

30、子图获取模块,配置为根据预设搜索策略,从所述知识图谱中采样节点和连接边,得到若干子图;

31、子图编码模块,配置为将第一子图输入所述图编码器,得到第一子图所对应的图表征;

32、子图描述模块,配置为基于第二子图中各个三元组所具有的文本语料,确定第一描述文本;

33、文本编码模块,配置为将所述第一描述文本输入文本编码器,得到对应的文本表征;

34、损失确定模块,配置为基于所述图表征与文本表征之间的表征差异,确定由第一子图和第一描述文本构成的第一样本对的对比损失;

35、编码器优化模块,配置为根据多个样本对各自的对比损失,更新所述图编码器。

36、根据第三方面,提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现第一方面所述方法的步骤。

37、根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面所述的方法。

38、本说明书实施例提供的方法和装置中,通过对比学习,使用知识图谱的文本表征和图表征将图编码器与预训练的文本编码器对齐,实现图模态与文本模态的融合。所使用的文本表征是使用预训练的文本编码器,将知识图谱的子图所对应的自然语言描述进行编码处理,而得到的子图文本表征。所使用的图表征是使用图编码器,将知识图谱的子图进行编码处理,而得到的子图表征。再根据子图文本表征与子图表征之间的差异,更新图编码器,使得图编码器不断向预训练的文本编码器对齐,提高二者融合度,最终实现在同一向量空间中的多模态融合。

39、通过使用这种训练方法训练图编码器,能够有效实现图模态与文本模态的对齐和融合,提高对知识图谱的特征提取质量,增强表达能力,促进知识图谱在下游任务(例如,智能搜索、常识问答、个性化推荐等)中的应用。文本编码器擅长处理自然语言文本,发掘语义表达以及词元之间的相对重要度,而图编码器在捕捉知识图谱数据的结构信息上表现出色,在本说明书实施例提供的训练方法中,可以在保持编码器各自的特有能力的同时,提高融合度,使得二者优势互补,提高了对知识图谱数据的处理能力。同时,本说明书实施例提供的训练方法不局限于知识图谱数据中的某一节点与其描述文本之间的对齐,而是使用子图的整图表征与其整体描述文本对编码器进行对齐,使之可以在多个知识图谱的不同子图上进行编码器的对齐,提高了泛化能力。

本文档来自技高网...

【技术保护点】

1.一种基于知识图谱训练图编码器的方法,所述知识图谱包括以三元组形式记录的多个节点及其之间的连接边;所述方法包括:

2.根据权利要求1所述的方法,其中,所述文本编码器为经过预训练之后得到的文本编码器。

3.根据权利要求1所述的方法,其中,所述基于所述图表征与文本表征之间的表征差异,确定由第一子图和第一描述文本构成的第一样本对的对比损失,包括:

4.根据权利要求3所述的方法,还包括:

5.根据权利要求1所述的方法,其中,确定由第一子图和第一描述文本构成的第一样本对的对比损失,包括:

6.根据权利要求1所述的方法,所述多个样本对包括正样本对和负样本对,其中,正样本对中的描述文本用于描述对应子图,负样本对中的描述文本不是用于描述对应子图。

7.根据权利要求1所述的方法,其中,所述预设搜索策略,包括:

8.根据权利要求1所述的方法,其中,所述预设搜索策略,包括:

9.根据权利要求1所述的方法,其中,所述确定第一描述文本,包括:

10.根据权利要求1所述的方法,其中,所述得到第一子图所对应的图表征,包括:

11.一种基于知识图谱训练图编码器的装置,所述知识图谱包括以三元组形式记录的多个节点及其之间的连接边;所述装置包括:

12.一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1-10任一项所述方法的步骤。

13.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。

...

【技术特征摘要】

1.一种基于知识图谱训练图编码器的方法,所述知识图谱包括以三元组形式记录的多个节点及其之间的连接边;所述方法包括:

2.根据权利要求1所述的方法,其中,所述文本编码器为经过预训练之后得到的文本编码器。

3.根据权利要求1所述的方法,其中,所述基于所述图表征与文本表征之间的表征差异,确定由第一子图和第一描述文本构成的第一样本对的对比损失,包括:

4.根据权利要求3所述的方法,还包括:

5.根据权利要求1所述的方法,其中,确定由第一子图和第一描述文本构成的第一样本对的对比损失,包括:

6.根据权利要求1所述的方法,所述多个样本对包括正样本对和负样本对,其中,正样本对中的描述文本用于描述对应子图,负样本对中的描述文本不是用于描述对应子图。

7.根据权利...

【专利技术属性】
技术研发人员:彭泊词刘永超洪春涛
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1