知识图谱模型训练方法和装置制造方法及图纸

技术编号:38725484 阅读:18 留言:0更新日期:2023-09-08 23:18
本申请公开了一种知识图谱模型训练方法和装置,属于知识图谱领域。所述知识图谱模型训练方法,包括:接收服务器端发送的目标轮对应的全局嵌入模型;基于自身知识图谱数据集对全局嵌入模型进行模型训练,获取目标轮对应的本地嵌入模型以及本地嵌入模型对应的模型分数,目标轮对应的模型分数用于供服务器端从目标轮对应的多个本地嵌入模型中提取用于进行目标轮的后一轮聚合处理的模型以得到全局嵌入模型;将本地嵌入模型和目标轮对应的模型分数发送至服务器端;接收服务器发送的后一轮对应的全局嵌入模型。本申请的知识图谱模型训练方法,能够选取得到具有全局代表性的数据分布的客户,提高最终的知识图谱补全任务效果。提高最终的知识图谱补全任务效果。提高最终的知识图谱补全任务效果。

【技术实现步骤摘要】
知识图谱模型训练方法和装置


[0001]本申请属于知识图谱领域,尤其涉及一种知识图谱模型训练方法和装置。

技术介绍

[0002]知识图谱本身具有不完整性的特点,通过现有的三元组去预测缺失的三元组信息,叫做链接预测;通过利用不同的知识图谱可以改善本地知识图谱的完整性。相关技术中,一般通过联邦学习的方式使不同的知识图谱持有方协同完成知识图谱的训练及完善,以避免泄露自身的隐私数据,在训练过程中只上传嵌入信息给服务器聚合,数据不会离开本地。但在联邦学习中,每个客户端的数据分布是非独立同分布的(non

IID);在非独立同分布情况下,全局优化会和本地优化产生偏移,除此之外,服务器端主要采用随机选择策略选择相应的客户端进行训练,无法选取到具有全局代表性的数据分布的客户,从而导致最终全局训练出来的模型不具有代表性,准确性不高。

技术实现思路

[0003]本申请旨在至少解决现有技术中存在的技术问题之一。为此,本申请提出一种知识图谱模型训练方法和装置,能够舍弃本轮嵌入表现不好的客户,选取得到具有全局代表性的数据分布的客户,提高全局和本地的训练精准度,从而提高最终的知识图谱补全任务效果。
[0004]第一方面,本申请提供了一种知识图谱模型训练方法,应用于客户端,该方法包括:
[0005]接收服务器端发送的目标轮对应的全局嵌入模型;所述目标轮对应的全局嵌入模型为所述服务器端对从所述目标轮的前一轮对应的多个本地嵌入模型中提取的部分本地嵌入模型进行聚合所得到的;所述多个本地嵌入模型与多个客户端一一对应;所述部分本地嵌入模型为所述服务器端基于所述前一轮中各客户端对应的模型分数确定的;
[0006]基于自身知识图谱数据集对所述全局嵌入模型进行模型训练,获取所述目标轮对应的本地嵌入模型以及所述本地嵌入模型对应的模型分数;
[0007]将所述本地嵌入模型和所述目标轮对应的模型分数发送至所述服务器端,所述目标轮对应的模型分数用于供所述服务器端从所述目标轮对应的多个本地嵌入模型中提取用于进行所述目标轮的后一轮聚合处理的模型以得到全局嵌入模型;
[0008]接收所述服务器发送的所述后一轮对应的全局嵌入模型。
[0009]根据本申请的知识图谱模型训练方法,通过在每一轮聚合中,服务器端基于客户端输出的模型分数从客户端对应的全局嵌入模型中提取部分客户端对应的嵌入模型进行聚合,以生成用于供下一轮本地训练的全局嵌入模型,能够舍弃本轮嵌入表现不好的客户,选取得到具有全局代表性的数据分布的客户,提高全局和本地的训练精准度,从而提高最终的知识图谱补全任务效果。
[0010]根据本申请的一个实施例,所述基于自身知识图谱数据集对所述全局嵌入模型进
行模型训练,获取所述目标轮对应的本地嵌入模型以及所述本地嵌入模型对应的模型分数,包括:
[0011]基于所述自身知识图谱数据集对所述全局嵌入模型进行训练,获取所述目标轮对应的初始模型;
[0012]基于所述全局嵌入模型修正所述初始模型,获取所述本地嵌入模型。
[0013]根据本申请的一个实施例,所述基于所述全局嵌入模型修正所述初始模型,获取所述本地嵌入模型,包括:
[0014]基于所述全局嵌入模型和所述初始模型的差值、近似系数、边缘系数以及所述自身知识图谱数据集,确定目标函数;
[0015]基于所述目标函数,修正所述初始模型。
[0016]根据本申请的一个实施例,所述目标函数如下所示:
[0017][0018]其中,L((h,r,t))为所述目标函数,f
r
(h,t)为正三元组的得分函数;γ为所述边缘系数;p(h,r,t

i
)为所述自身知识图谱数据集中负样本的权重参数;n为所述负样本的数量;为近似措施;为所述近似系数;ω为所述全局嵌入模型;ω
t
为所述初始模型。
[0019]根据本申请的一个实施例,在所述基于自身知识图谱数据集对所述全局嵌入模型进行模型训练,获取所述目标轮对应的本地嵌入模型以及所述本地嵌入模型对应的模型分数之后,所述方法还包括:
[0020]在所述目标轮达到训练轮数阈值的情况下,将所述目标轮对应的本地嵌入模型确定为所述客户端对应的最终本地嵌入模型。
[0021]第二方面,本申请提供了一种知识图谱模型训练方法,应用于服务器端,该方法包括:
[0022]基于获取的各客户端发送的在目标轮训练得到本地嵌入模型对应的模型分数,确定各所述本地嵌入模型对应的嵌入得分;
[0023]从获取的多个本地嵌入模型中提取最大的目标数量的嵌入得分对应的本地嵌入模型;所述多个本地嵌入模型与多个客户端一一对应;
[0024]对所述目标数量的本地嵌入模型进行聚合,获取所述目标轮的后一轮对应的全局嵌入模型;
[0025]将所述后一轮对应的全局嵌入模型分别发送至各所述客户端,所述后一轮对应的全局嵌入模型用于供各所述客户端训练所述后一轮对应的本地嵌入模型。
[0026]根据本申请的知识图谱模型训练方法,通过在每一轮聚合中,服务器端基于客户端输出的模型分数从客户端对应的全局嵌入模型中提取部分客户端对应的嵌入模型进行聚合,以生成用于供下一轮本地训练的全局嵌入模型,能够舍弃本轮嵌入表现不好的客户,选取得到具有全局代表性的数据分布的客户,提高全局和本地的训练精准度,从而提高最终的知识图谱补全任务效果。
[0027]第三方面,本申请提供了一种知识图谱模型训练装置,应用于客户端,该装置包
括:
[0028]第一处理模块,用于接收服务器端发送的目标轮对应的全局嵌入模型;所述目标轮对应的全局嵌入模型为所述服务器端对从所述目标轮的前一轮对应的多个本地嵌入模型中提取的部分本地嵌入模型进行聚合所得到的;所述多个本地嵌入模型与多个客户端一一对应;所述部分本地嵌入模型为所述服务器端基于所述前一轮中各客户端对应的模型分数确定的;
[0029]第二处理模块,用于基于自身知识图谱数据集对所述全局嵌入模型进行模型训练,获取所述目标轮对应的本地嵌入模型以及所述本地嵌入模型对应的模型分数;
[0030]第三处理模块,用于将所述本地嵌入模型和所述目标轮对应的模型分数发送至所述服务器端,所述目标轮对应的模型分数用于供所述服务器端从所述目标轮对应的多个本地嵌入模型中提取用于进行所述目标轮的后一轮聚合处理的模型以得到全局嵌入模型;
[0031]第四处理模块,用于接收所述服务器发送的所述后一轮对应的全局嵌入模型。
[0032]根据本申请的知识图谱模型训练装置,通过在每一轮聚合中,服务器端基于客户端输出的模型分数从客户端对应的全局嵌入模型中提取部分客户端对应的嵌入模型进行聚合,以生成用于供下一轮本地训练的全局嵌入模型,能够舍弃本轮嵌入表现不好的客户,选取得到具有全局代表性的数据分布的客户,提高全局和本地的训练精准度,从而提高最终的知识图谱补全任务效果。
[0033]第四方面,本申请提供了一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱模型训练方法,其特征在于,应用于客户端,所述方法包括:接收服务器端发送的目标轮对应的全局嵌入模型;所述目标轮对应的全局嵌入模型为所述服务器端对从所述目标轮的前一轮对应的多个本地嵌入模型中提取的部分本地嵌入模型进行聚合所得到的;所述多个本地嵌入模型与多个客户端一一对应;所述部分本地嵌入模型为所述服务器端基于所述前一轮中各客户端对应的模型分数确定的;基于自身知识图谱数据集对所述全局嵌入模型进行模型训练,获取所述目标轮对应的本地嵌入模型以及所述本地嵌入模型对应的模型分数;将所述本地嵌入模型和所述目标轮对应的模型分数发送至所述服务器端,所述目标轮对应的模型分数用于供所述服务器端从所述目标轮对应的多个本地嵌入模型中提取用于进行所述目标轮的后一轮聚合处理的模型以得到全局嵌入模型;接收所述服务器发送的所述后一轮对应的全局嵌入模型。2.根据权利要求1所述的知识图谱模型训练方法,其特征在于,所述基于自身知识图谱数据集对所述全局嵌入模型进行模型训练,获取所述目标轮对应的本地嵌入模型以及所述本地嵌入模型对应的模型分数,包括:基于所述自身知识图谱数据集对所述全局嵌入模型进行训练,获取所述目标轮对应的初始模型;基于所述全局嵌入模型修正所述初始模型,获取所述本地嵌入模型。3.根据权利要求2所述的知识图谱模型训练方法,其特征在于,所述基于所述全局嵌入模型修正所述初始模型,获取所述本地嵌入模型,包括:基于所述全局嵌入模型和所述初始模型的差值、近似系数、边缘系数以及所述自身知识图谱数据集,确定目标函数;基于所述目标函数,修正所述初始模型。4.根据权利要求3所述的知识图谱模型训练方法,其特征在于,所述目标函数如下所示:其中,L((h,,))为所述目标函数,f
r
(h,t)为正三元组的得分函数;γ为所述边缘系数;p(h,r,t
i

)为所述自身知识图谱数据集中负样本的权重参数;n为所述负样本的数量;为近似措施;为所述近似系数;ω为所述全局嵌入模型;ω
t
为所述初始模型。5.根据权利要求1

4任一项所述的知识图谱模型训练方法,其特征在于,在所述基于自身知识图谱数据集对所述全局嵌入模型进行模型训练,获取所述目标轮对应的本地嵌入模型以及所述本地嵌入模型对应的模型分数之后,所述方法还包括:在所述目标轮达到训练轮数阈值的情况下,将所述目标轮对应的本地嵌入模型确定为所述客户端对应的最终本地嵌入模型。6.一种知识图谱模型训练方法,其特征在于,应用于服务器端,所述方法包括:基于获取的各客户端发送的在目标轮训练得到本地嵌入模型对应的模型分数,确定各所述本地嵌入模型对应的嵌入得分;从获取的多个本地嵌入模型中提取最大的目标数量的嵌入得分对应的本地嵌入模型;
所述多个本地嵌入模型与多个客户端一一对应;对所述目标数量的本地嵌入模型进行聚合,获取所述目标轮的后一轮对应的全局嵌入...

【专利技术属性】
技术研发人员:陈光田丰杨旭韦浩蓝
申请(专利权)人:广州广电运通金融电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1