【技术实现步骤摘要】
一种模型梯度更新方法及装置
[0001]本申请涉及模型训练
,特别涉及一种模型梯度更新方法及装置。
技术介绍
[0002]横向联邦学习也称为按样本划分的联邦学习,可以应用于联邦学习的各个参与方的数据集有相同的特征和不同的样本的场景。
[0003]通常假设一个横向联邦学习系统的参与方都是诚实的,需要防范的对象是一个诚实但好奇的中心服务器。即通常假设只有中心服务器才能使得数据参与方的隐私安全受到威胁。在横向联邦学习系统中,具有同样数据特征的多个参与方在中心服务器的帮助下,协作地训练一个模型。主要包括以下步骤:各参与方在本地计算模型梯度,并梯度(梯度需要加密)发送给中心服务器。中心服务器对多个梯度进行聚合。中心服务器将聚合后的梯度(梯度也需要加密)发送给各参与方。各参与方使用接收到的梯度更新各自的模型参数。
[0004]上述步骤持续迭代进行,直到损失函数收敛或者达到允许的迭代次数的上限或允许的训练时间,这种架构独立于特定的机器学习算法(如逻辑回归和深度神经网络),并且所有参与方将会共享最终的模型参数。 >[0005]目前,本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种模型梯度更新方法,其特征在于,应用于中心服务器,包括:中心服务器重复执行梯度更新过程,直至满足停止条件;其中,一次所述梯度更新过程包括:接收多个节点分别发送的第一梯度,所述第一梯度为每个节点采用样本数据对节点中的待训练的模型进行一次或多次训练得到;基于多个第一梯度和本次梯度更新过程中的每个节点的概率得到第二梯度,所述本次梯度更新过程中的每个节点的概率为Actor
‑
Critic网络基于上一次梯度更新过程中的每个节点的概率确定的;将所述第二梯度分别发送给所述多个节点,以使所述多个节点采用所述第二梯度对各自的待训练的模型的权重进行更新。2.如权利要求1所述的方法,其特征在于,所述Actor
‑
Critic网络包括Actor网络、至少一个Critic网络、及奖励函数;所述奖励函数用于基于上一次梯度更新过程中确定的所述多个节点的概率,确定奖励值,并将奖励值传输至所述至少一个Critic网络;所述至少一个Critic网络用于确定目标Q值,并将所述目标Q值传输至所述Actor网络;所述Actor网络用于基于所述目标Q值确定本次梯度更新过程中的每个节点的概率。3.如权利要求2所述的方法,其特征在于,所述目标Q值为多个Critic网络确定的Q值中的最小Q值。4.如权利要求2所述的方法,其特征在于,奖励函数满足:其中,A为第一准确率,B为第二准确率,g大于或等于1,其中,第一准确率为所述中心服务器与所述多个节点基于联邦平均学习算法得到的训练完成的模型的准确率;第二准确率为所述多个节点分别发送的第三准确率的平均值,所述第三准确为与所述第一梯度在所述节点采用样本数据对所述节点中的待训练的模型进行同一次模型训练中得到的。5.如权利要求4所述的方法,其特征在于,当大于1时,g大于1;当小于或等于1时,g为1。6.如权利要求2所述的方法,其特征在于,所述Actor
‑
Critic网络包括3个Critic网络,针对任一Critic网络,在本次梯度更新过程中确定的Q值基于Q值梯度和上一次梯度更新过程中确定的Q值确定,所述Q值梯度基于第一参数确定,所述第一参数满足以下公式:其中,其中,J为所述第一参数;t为本次梯度更新的次数;k>0,l>0,k+l=1;θ1,θ2,θ3分别表示3个Critic网络,θ
i
为θ1,θ2,θ3分别表示3个Critic网络最新确定出的Q值中的最小值对应的网络;s
t
为第t次梯度更新过程中的状态;a
t
为第t次梯度更新过程中所述多个节点的概
率;为第t次梯度更新过程中θ
i
对应的Critic网络在s
t
,a
t
情况下确定的Q值;为第t次梯度更新过程中θ3对应的Critic网络在s
t
,a
t
情况下输出的Q值;r(s
t
,a
t
)为第t次梯度更新过程中在s
t
,a
t
情况下的奖励值;γ大于0;π
t
(a
t
|s
t
)为在s...
【专利技术属性】
技术研发人员:程栋,程新,周雍恺,高鹏飞,姜铁城,
申请(专利权)人:中国银联股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。