【技术实现步骤摘要】
联邦学习模型的训练方法、装置、电子设备和存储介质
[0001]本申请涉及数据处理
,尤其涉及一种联邦学习模型的训练方法、装置、电子设备和存储介质。
技术介绍
[0002]随着机器学习的发展,越来越多的机器学习技术被应用于各行各业。数据的数量和质量往往决定了机器学习模型效果的上限。但是随着法规和监管越来越严格,以及人们对于数据安全和隐私保护越来越重视,形成数据孤岛现象。在这样的场景下,联邦学习应运而生,它可以让参与方在不共享数据的基础上联合训练,解决数据孤岛的难题。
[0003]相关技术中,联邦学习是一种加密的分布式机器学习技术,它融合了信息加密、分布式计算和机器学习等多种技术。联邦学习根据参与方持有数据的特点可以被分为横向联邦学习、纵向联邦学习以及联邦迁移学习。在风控场景下,纵向联邦学习的应用更为广泛。
技术实现思路
[0004]本申请第一方面实施例提出一种联邦学习模型的训练方法,能够在保证建模效果的同时减少建模的复杂度,从而使业务方服务器与数据提供方服务器之间的联合训练更加高效,进而提高了建模 ...
【技术保护点】
【技术特征摘要】
1.一种联邦学习模型的训练方法,其特征在于,包括:与数据提供方服务器进行样本对齐;分别获取业务方服务器和所述数据提供方服务器的特征数量,并根据所述特征数量分别对所述业务方服务器和所述数据提供方服务器的特征进行编号,以生成特征编码集,以及将所述数据提供方服务器的特征编号和公钥发送至所述数据提供方服务器;获取联邦学习模型的当前样本集和训练参数集;根据所述当前样本集、所述训练参数集和所述特征编码集,对所述联邦学习模型进行M次迭代训练,其中,所述M为大于1的正整数;以及获取第M次所述迭代训练得到的所述联邦学习模型的目标参数。2.如权利要求1所述的联邦学习模型的训练方法,其特征在于,其中,所述训练参数集包括特征采样率、训练样本上限值、训练样本下限值、决策树棵数上限值、决策树棵数下限值、第一参数变化速度和第二参数变化速度。3.如权利要求2所述的联邦学习模型的训练方法,其特征在于,其中,所述每次迭代训练,包括:将所述M次迭代训练中当前的迭代训练作为第N次迭代训练,其中,所述N为小于所述M的正整数;根据所述M、所述N、所述训练样本上限值、所述训练样本下限值和所述第一参数变化速度,生成样本采样率;根据所述M、所述N、所述决策树棵数上限值、所述决策树棵数下限值和所述第二参数变化速度,生成目标棵数;从所述当前样本集中选取所述样本采样率的样本以生成目标训练集;从所述特征编码集中选取所述特征采样率的特征编码以生成目标特征编码集;将所述目标训练集中每个样本的编号,以及所述目标特征编码集中所述数据提供方服务器的目标特征编号发送至所述数据提供方服务器;根据所述目标训练集、所述目标特征编码集和所述目标棵数,生成所述联邦学习模型的目标参数;基于梯度提升算法,并根据所述目标参数和所述联邦学习模型,生成所述当前样本的优化标签,其中,所述优化标签为下一轮迭代训练的所述当前样本的训练标签。4.如权利要求3所述的联邦学习模型的训练方法,其特征在于,所述根据所述目标训练集、所述目标特征编码集和所述目标棵数,生成所述联邦学习模型的目标参数,包括:计算所述目标训练集中样本的梯度信息,并将所述梯度信息发送至所述数据提供方服务器;接收所述数据提供方服务器提供的梯度返回信息;根据所述梯度返回信息和所述目标特征编码集生成目标分裂点编号,并基于私钥和所述目标分裂点编号生成密文,以及将所述密文发送至所述数据提供方服务器;接收所述数据提供方服务器发送的解密运算值,并根据所述解密运算值进行节点分裂;重复以上步骤直至模型收敛,以建立所述目标棵数的决策树,完成所述联邦学习模型的训练,并通过所述完成训练的联邦学习模型获取所述目标参数。
5.如权利要求4所述的联邦学习模型的训练方法,其特征在于,所述计算所述目标训练集中样本的梯度信息,包括:生成所述目标训练集中样本的一阶梯度值和二阶梯度值;对所述一阶梯度值和所述二阶梯度值进行同态加密以生成所述梯度信息。6.如权利要求4所述的联邦学习模型的训练方法,其特征在于,所述梯度返回信息为多个,且每个所述梯度返回信息对应有相应的编号,其中,所述根据所述梯度返回信息和所述目标特征编码集生成目标分裂点编号,包括:根据所述多个梯度返回信息和所述目标特征编码集分别生成对应的多个信息增益;从所述多个信息增益之中选择最大信息增益,并将所述最大信息增益对应的编号作为所述目标分裂点编号。7.如权利要求4所述的联邦学习模型的训练方法,其特征在于,所述根据所述解密运算值进行节点分裂,包括:根据所述解密运算值生成分裂空间信息;根据所述目标训练集中样本和所述分裂空间信息进行节点分裂。8.一种联邦学习模型的训练方法,其特征在于,包括:与业务方服务器进行样本对齐;接收所述业务方服务器发送的所述数据提供方服务器的特征编号和公钥;接收所述业务方服务器发送的目标训练集中每个样本的编号,以及目标特征编码集中所述数据提供方服务器的目标特征编号;接收所述业务方服务器发送的当前所训练的样本的梯度信息,并根据所述梯度信息获取梯度返回信息;向所述业务方服务器发送所述梯度返回信息;接收所述业务方服务器发送的基于私钥和目标分裂点编号生成的密文,其中,所述目标分裂点编号根据所述梯度返回信息和所述目标特征编码集生成;以及基于所述公钥对所述密文进行解密,得到解密运算值,并发送给所述业务方服务器。9.如权利要求8所述的联邦学习模型的训练方法,其特征在于,所述根据所述梯度信息获取梯度返回信息,包括:根据所述目标特征编号和所述数据提供方服务器的特征编号,确定特征集;根据所述特征集中每个所述特征对应的分裂阈值对样本空间进行分裂,以获取指定侧的分裂空间;根据所述梯度信息,获取所述每个特征对应的所述指定侧的分裂空间的梯度求和信息,并对所述梯度求和信息进行编号;利用所述梯度求和信息和所述梯度求和信息的编号,生成所述梯度返回信息。10.如权利要求9所述的联邦学习模型的训练方法,其特征在于,所述对所述梯度求和信息进行编号之后,还包括:生成所述编号,以及所述编号对应的特征、所述分裂阈值以及所述编号对应的所述梯度求和信息之间的映射关系。11.一种联邦学习模型的训练装置,其特征在于,包括:对齐模块,用于与数据提供方服务器进行样本对齐;
发送模块,用于分别获取业务方服务器和所述数据提供方服务器的特征数量,并根据所述特征数量分别对所述业务方服务器和所述数据提供方服务器的特征进行编号,以生成特征编码集,以及将所述数据提供方服务器的特征编号和公钥发送至所述数据提供方服务器;第一获取模块,用于获取联邦学习模型的当前样本集...
【专利技术属性】
技术研发人员:杨恺,王虎,黄志翔,彭南博,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。