【技术实现步骤摘要】
联邦学习模型的训练方法、装置、电子设备和存储介质
[0001]本申请涉及数据处理
,尤其涉及一种联邦学习模型的训练方法、装置、电子设备和存储介质。
技术介绍
[0002]随着机器学习的发展,越来越多的机器学习技术被应用于各行各业。数据的数量和质量往往决定了机器学习模型效果的上限。但是随着法规和监管越来越严格,以及人们对于数据安全和隐私保护越来越重视,形成数据孤岛现象。在这样的场景下,联邦学习应运而生,它可以让参与方在不共享数据的基础上联合训练,解决数据孤岛的难题。
[0003]相关技术中,联邦学习是一种加密的分布式机器学习技术,它融合了信息加密、分布式计算和机器学习等多种技术。联邦学习根据参与方持有数据的特点可以被分为横向联邦学习、纵向联邦学习以及联邦迁移学习。在风控场景下,纵向联邦学习的应用更为广泛。
技术实现思路
[0004]本申请第一方面实施例提出一种联邦学习模型的训练方法,能够有效地防止模型提取攻击和模型逆向攻击,实现了保护业务方的模型和训练数据的安全,也能防止数据提供方的信息泄露,保护了数据提供方的数据安全。
[0005]本申请第二方面实施例提出一种联邦学习模型的训练方法。
[0006]本申请第三方面实施例提出一种联邦学习模型的训练装置。
[0007]本申请第四方面实施例提出一种联邦学习模型的训练装置。
[0008]本申请第五方面实施例提出一种电子设备。
[0009]本申请第六方面实施例提出一种计算机可读存储介质。
[0010]本 ...
【技术保护点】
【技术特征摘要】
1.一种联邦学习模型的训练方法,其特征在于,所述方法包括:与数据提供方服务器进行样本对齐;计算当前样本的梯度信息,并发送至所述数据提供方服务器;接收所述数据提供方服务器提供的公钥、假消息集以及梯度返回信息,其中,所述假消息集中包括至少一个假消息;根据所述梯度返回信息生成目标分裂点编号,并基于所述公钥、所述假消息集和所述目标分裂点编号生成密文,并将所述密文发送至所述数据提供方服务器;以及接收所述数据提供方服务器发送的每个所述假消息对应的解密运算值,并根据每个所述假消息对应的解密运算值进行节点分裂。2.如权利要求1所述的联邦学习模型的训练方法,其特征在于,所述计算当前样本的梯度信息,包括:生成所述当前样本的一阶梯度值和二阶梯度值;对所述一阶梯度值和所述二阶梯度值进行同态加密以生成所述梯度信息。3.如权利要求1所述的联邦学习模型的训练方法,其特征在于,所述梯度返回信息为多个,且每个所述梯度返回信息对应有相应的编号,其中,所述根据所述梯度返回信息生成目标分裂点编号,包括:根据所述多个梯度返回信息分别生成对应的多个信息增益;从所述多个信息增益之中选择最大信息增益,并将所述最大信息增益对应的编号作为所述目标分裂点编号。4.如权利要求1所述的联邦学习模型的训练方法,其特征在于,所述基于所述公钥、所述假消息集和所述目标分裂点编号生成密文,包括:根据所述目标分裂点编号和混淆分裂点编号,生成特征混淆字典,其中,所述混淆分裂点编号为从所述梯度返回信息对应有相应的编号中选取的至少一个分裂点编号;生成随机数,并根据所述特征混淆字典、所述公钥以及所述假消息集对所述随机数进行加密以生成所述密文。5.如权利要求4所述的联邦学习模型的训练方法,其特征在于,所述根据所述特征混淆字典和所述公钥、以及所述假消息集对所述随机数进行加密以生成所述密文,包括:利用所述公钥对所述随机数加密,得到中间密文;根据所述特征混淆字典,从所述假消息集中,获取目标假消息;基于所述目标假消息对所述中间密文进行处理,得到所述密文。6.如权权利要求5所述的联邦学习模型的训练方法,其特征在于,所述根据所述特征混淆字典,从所述假消息集中,获取目标假消息,包括:获取所述目标分裂点编号的字典索引值;根据所述字典索引值,从所述假消息集中选取所述目标假消息。7.如权利要求1
‑
6中任一项所述的联邦学习模型的训练方法,其特征在于,所述根据每个所述假消息对应的解密运算值进行节点分裂,包括:根据每个所述假消息对应的解密运算值,以及所述随机数生成分裂空间信息;根据所述当前样本和所述分裂空间信息进行节点分裂。8.一种联邦学习模型的训练方法,其特征在于,所述方法包括:
与业务方服务器进行样本对齐;接收所述业务方服务器发送的当前所训练的样本的梯度信息,并根据所述梯度信息获取梯度返回信息;向所述业务方服务器发送公钥、假消息集以及所述梯度返回信息,其中,所述假消息集中包括至少一个假消息;接收所述业务方服务器发送的基于所述公钥、所述假消息集和目标分裂点编号生成的密文,其中,所述目标分裂点编号根据所述梯度返回信息生成;以及对所述密文进行解密,得到每个所述假消息对应的解密运算值,并发送给所述业务方服务器。9.如权利要求8所述的联邦学习模型的训练方法,其特征在于,所述根据所述梯度信息获取梯度返回信息,包括:根据每个特征对应的分裂阈值对样本空间进行分裂,以获取指定侧的分裂空间;根据所述梯度信息,获取每个特征对应的所述指定侧的分裂空间的梯度求和信息,并对所述梯度求和信息进行编号;利用所述梯度求和信息和所述梯度求和信息的编号,生成所述梯度返回信息。10.如权利要求9所述的联邦学习模型的训练方法,其特征在于,所述对所述梯度求和信息进行编号之后,还包括:生成特征、所述特征对应的所述分裂阈值以及所述特征对应的所述梯度求和信息的映射关系。11.如权利要求8所述的联邦学习模型的训练方法,其特征在于,所述对所述密文进行解密,得到每个所述假消息对应的解密运算值,包括:接收所述业务方服务器发送的特征混淆字典,其中,所述特征混淆字典基于所述目标分裂点编号和至少一个混淆分裂点编号生成,所述混淆分裂点编号为从所述梯度返回信息对应有相应的编号中选取的至少一个分裂点编号;根据所述特征混淆字典、所述公钥对应的私钥以及所述至少一个假消息,对所述密文进行解密,得到每个所述假消息对应的解密运算值。12.如权利要求11所述的联邦学习模型的训练方法,其特征在于,所述根据所述特征混淆字典、所述私钥以及所述至少一个假消息,对所述密文进行解密,得到每个所述假消息对应的解密运算值,包括:利用所述至少一个假消息,对所述密文进行处理,得到每个所述假消息对应的中间密文;利用所述私钥对每个所述假消息对应的中间密文进行解密,得到每个所述假消息对应的中间解密值;根据所述特征混淆字典,对所述中间解密值进行处理,得到每个所述假消息对应的解密运算值。13.如权利要求12所述的联邦学习模型的训练方法,其特征在于,所述根据所述特征混淆字典,对所述中间解密值进行处理,得到每个所述假消息对应的解密运算值,包括:根据所述特征混淆字典中的特征编号,获取所述特征编号对应的指定侧的分裂空间;对所述分裂空间中的样本进行编码,得到所述分裂空间的编码信息;
根据所述特征编号的字典索引值,将多个所述分裂空间的编码信息与所述假消息集中的假消息进行配对;针对每个假消息,利用所述假消息与配对出的所述编码信息,得到所述假消息的解密运算值。14.一种联邦学习模型的训练装置,其特征在于,所述装置包括:对齐模块,用于与数据提供方服务器进行样本对齐;计算模块,用于计算当前样本的梯度信息,并发送至所述数据提供方服务器;接收模块,用于接收所述数据提供方服务...
【专利技术属性】
技术研发人员:陈忠,韩雨锦,王虎,黄志翔,彭南博,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。