基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置制造方法及图纸

技术编号:33654607 阅读:17 留言:0更新日期:2022-06-02 20:33
本发明专利技术公开了一种基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置,包括:云端初始化模型和学习率参数并广播当前的迭代次数和当前的全局模型。学习者接收广播的模型和迭代次数进行本地训练,当完成本地训练后将更新上传至云端。云端接收K个更新后,升级模型参数。通过累积历史梯度缓解异质性数据的影响,并基于延时程度聚合K个梯度缓解延时性的影响,并估计全局无偏梯度;然后选择与估计梯度下降方向一致的梯度,赋予权重;进一步裁剪延时梯度,并调整学习速率,更新并广播模型参数和迭代次数。重复云端和学习者的交互,直至模型的测试损失小于阈值,模型收敛。本发明专利技术根据延时程度自适应调整学习速率,提高了模型的预测精度。型的预测精度。型的预测精度。

【技术实现步骤摘要】
基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置


[0001]本专利技术属于数据隐私安全领域,涉及一种基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置。

技术介绍

[0002]联邦学习是一种新兴的隐私保护范式,它允许多个参与者协作训练一个全局模型,而无需参与方上传本地数据。大多数联邦学习算法以同步方式运行,在每次迭代中,云端随机抽取一部分学习者进行本地训练,学习者完成本地训练过程并上传模型参数,云端聚合收集的模型参数。在同步学习中,当抽取到的部分学习者存在断网或算力低等情形时,会增大每轮迭代的运行时间,因此联邦学习每轮迭代的运行时间由拖延者决定。为了缓解拖延者现象,可采用异步联邦学习算法,在每轮迭代中,完成本地训练的学习者上传模型更新,云端在接收到上传的K个梯度后,更新全局模型,未完成训练过程的学习者继续进行本地训练,可以降低下一轮迭代中所消耗的时间,从而缓解拖延者现象。虽然K异步联邦学习可以缓解拖延者现象,节省总训练时间,但在实践中仍有两个挑战。一方面,联邦学习中不同学习者间的数据是异质的,会降低模型的效用性。另一方面,延时梯度可能会损害模型的效用性,甚至导致模型朝着错误的方向更新。已有方法分别解决这两个问题。对于异质性数据,现有的解决方案如动量和方差缩减,其本质是充分利用所有可用信息来估计数据的全局分布。因此,需要聚合尽可能多的学习者的梯度,以使聚合的梯度全面地反映整个数据。对于延时性,大多数研究指出云端应该根据延时聚合接收的梯度,或者调整学习速率。因此,只有少数低延时的梯度会被聚合,大部分高延时的梯度将被过滤掉。显然,当简单地组合现有的缓解异质性数据和延时梯度的影响的方法时,会产生一个本质的矛盾。因此,设计一种既能有效处理延时梯度又能缓解异质性数据,从而缓解其中内在矛盾的新型异步联邦学习的方法具有重要意义。

技术实现思路

[0003]本专利技术的目的在于解决现有技术中的问题,提供一种基于梯度选择和自适应学习率的加权K异步联邦学习方法、系统及装置,能够有效的缓解异质性数据的影响,同时防止延时梯度降低模型的效用性,同时调整学习速率,降低本轮迭代的贡献,提高了模型的预测精度。
[0004]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0005]基于梯度选择和自适应学习率的加权K异步联邦学习方法,包括:
[0006]步骤1、初始化训练参数并广播当前的迭代次数和模型参数,初始化模型参数w0、学习率η0、迭代次数itr=0、每轮参与模型更新的学习者的数目K、模型损失阈值ε
loss
>0和角相似度阈值sim
min
∈(0,1],将当前的迭代次数j=itr和当前的模型参数w
j
进行广播;
[0007]步骤2、接收当前的模型参数w
j
和当前的迭代次数j,然后本地随机抽取批数据,利
用接收的模型参数w
j
训练抽取的批数据计算梯度,当完成本地训练后,将计算结果和接收的迭代次数进行上传,并停止本地训练,等待接收新的模型参数和迭代次数,而未完成本地训练的学习者继续进行本地训练;
[0008]步骤3、在第j轮全局迭代中,接收上传的梯度和对应的迭代次数,接收到的第i个梯度定义为g(w
j,i

j,i
),对应的迭代次数定义为itr
j,i
,并根据当前的全局迭代次数j计算第i个梯度的延时τ
j,i
;当接收K个学习者上传的梯度后,进行聚合梯度;
[0009]步骤4、在第j轮全局迭代中,K个学习者上传的梯度{g(w
j,i

j,i
),i=1,

,K}分别累积历史梯度得到累积梯度
[0010]步骤5、裁剪K个累积梯度,得到并赋予各个梯度与延时程度呈负相关关系的权重并聚合梯度得到估计梯度
[0011]步骤6、当模型收敛到最优解邻域时,即损失值低于提前设定的阈值时,模型进入第二阶段,继续裁剪梯度;
[0012]步骤7、分别计算K个累积梯度与估计梯度的角相似度,根据角相似度赋予各个梯度相应的权重,并聚合得到最终的聚合梯度g(w
j
);
[0013]步骤8、根据K个梯度的最小延时自适应调整学习率;
[0014]步骤9、在聚合一致性梯度和调整学习率后,更新全局模型w
j+1
=w
j

η
j
g(w
j
)和迭代次数j

j+1,然后将更新后的全局模型和迭代次数进行广播;
[0015]步骤10、迭代更新,重复步骤1到步骤9,直至损失值达到设定的阈值,模型收敛。
[0016]本专利技术的进一步改进在于:
[0017]步骤1、步骤3、步骤4、步骤5、步骤6、步骤7、步骤8和步骤9为云端的工作,步骤2为学习者的工作;
[0018]步骤1中,将当前的迭代次数j=itr和当前的模型参数w
j
进行广播具体为:将当前的迭代次数j=itr和当前的模型参数w
j
广播给所有的学习者;
[0019]步骤2中,将计算结果和接收的迭代次数进行上传,具体为:将计算结果和接收的迭代次数上传至云端;
[0020]步骤9中,将更新后的全局模型和迭代次数进行广播,具体为:将更新后的全局模型和迭代次数进行广播给参与上一轮聚合的学习者。
[0021]步骤3中,在第j轮迭代中,云端接收到的第i个梯度定义为g(w
j,i

j,i
),其中w
j,i
为延时模型,ξ
j,i
为得到该梯度所抽取的批数据,对当前迭代轮次和接收到的迭代次数作差可得第i个梯度的延时τ
j,i

[0022]步骤4中,在第j轮迭代中,分别将接收到的K个梯度累积第(j

1)轮的估计的无偏梯度即
[0023][0024]其中,α∈[0,1)是一个常数。
[0025]步骤5的裁剪规则为
[0026][0027]其中,B是常数;
[0028]赋予各个梯度与延时程度呈负相关关系的权重并聚合梯度得到估计梯度具体为:
[0029][0030]其中是第i个学习者的关于延时τ
j,i
的权重函数。
[0031]步骤7具体为:
[0032]计算学习者的累积梯度与估计梯度的角相似度,
[0033]根据角相似度赋予累积梯度相应的权重:
[0034][0035]对角相似度小于设定阈值sim
min
的累积梯度进行过滤,
[0036]归一化梯度的权重
[0037]根据得到的梯度聚合累计梯度
[0038]步骤8中,最低延时调整学习率具体为:
[0039][0040]其中,η0是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于梯度选择和自适应学习率的加权K异步联邦学习方法,其特征在于,包括:步骤1、初始化训练参数并广播当前的迭代次数和模型参数,初始化模型参数w0、学习率η0、迭代次数itr=0、每轮参与模型更新的学习者的数目K、模型损失阈值ε
loss
>0和角相似度阈值sim
min
∈(0,1],将当前的迭代次数j=itr和当前的模型参数w
j
进行广播;步骤2、接收当前的模型参数w
j
和当前的迭代次数j,然后本地随机抽取批数据,利用接收的模型参数w
j
训练抽取的批数据计算梯度,当完成本地训练后,将计算结果和接收的迭代次数进行上传,并停止本地训练,等待接收新的模型参数和迭代次数,而未完成本地训练的学习者继续进行本地训练;步骤3、在第j轮全局迭代中,接收上传的梯度和对应的迭代次数,接收到的第i个梯度定义为g(w
j,i
,ξ
j,i
),对应的迭代次数定义为itr
j,i
,并根据当前的全局迭代次数j计算第i个梯度的延时τ
j,i
;当接收K个学习者上传的梯度后,进行聚合梯度;步骤4、在第j轮全局迭代中,K个学习者上传的梯度{g(w
j,i
,ξ
j,i
),i=1,

,K}分别累积历史梯度得到累积梯度步骤5、裁剪K个累积梯度,得到并赋予各个梯度与延时程度呈负相关关系的权重并聚合梯度得到估计梯度步骤6、当模型收敛到最优解邻域时,即损失值低于提前设定的阈值时,模型进入第二阶段,继续裁剪梯度;步骤7、分别计算K个累积梯度与估计梯度的角相似度,根据角相似度赋予各个梯度相应的权重,并聚合得到最终的聚合梯度g(w
j
);步骤8、根据K个梯度的最小延时自适应调整学习率;步骤9、在聚合一致性梯度和调整学习率后,更新全局模型w
j+1
=w
j

η
j
g(w
j
)和迭代次数j

j+1,然后将更新后的全局模型和迭代次数进行广播;步骤10、迭代更新,重复步骤1到步骤9,直至损失值达到设定的阈值,模型收敛。2.根据权利要求1所述的基于梯度选择和自适应学习率的加权K异步联邦学习方法,其特征在于,所述步骤1、步骤3、步骤4、步骤5、步骤6、步骤7、步骤8和步骤9为云端的工作,所述步骤2为学习者的工作;步骤1中,将当前的迭代次数j=itr和当前的模型参数w
j
进行广播具体为:将当前的迭代次数j=itr和当前的模型参数w
j
广播给所有的学习者;步骤2中,将计算结果和接收的迭代次数进行上传,具体为:将计算结果和接收的迭代次数上传至云端;步骤9中,将更新后的全局模型和迭代次数进行广播,具体为:将更新后的全局模型和迭代次数进行广播给参与上一轮聚合的学习者。3.根据权利要求2所述的基于梯度选择和自适应学习率的加权K异步联邦学习方法,其特征在于,所述步骤3中,在第j轮迭代中,云端接收到的第i个梯度定义为g(w
j,i
,ξ
j,i
),其中w
j,i
为延时模型,ξ
j,i
为得到该梯度所抽取的批数据,对当前迭代轮次和接收到的迭代次数作差可得第i个梯度的延时τ
j,i

4.根据权利要求2所述的基于梯度选择和自适应学习率的加权K异步联邦学习方法,其特征在于,所述步骤4中,在第j轮迭代中,分别将接收到的K个梯度累积第(j

1)轮的估计的无偏梯度即其中,α∈[0,1)是一个常数。5.根据权利要求2所述的基于梯度选择和自适应学习率的加权K异步联邦学习方法,其特征在于,所述步骤5的裁剪规则为...

【专利技术属性】
技术研发人员:杨树森任雪斌赵鹏周子昊李亚男吴帅君
申请(专利权)人:杭州卷积云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1