当前位置: 首页 > 专利查询>河海大学专利>正文

基于异步联邦学习的参数聚合更新方法、设备及系统技术方案

技术编号:32130107 阅读:24 留言:0更新日期:2022-01-29 19:27
本发明专利技术公开了一种基于异步联邦学习的参数聚合更新方法、设备及系统。所述方法通过在参数服务器上保存权重摘要来保留工作节点的最新权重,并且所有工作节点所占权重比例相同,权重摘要通过每个工作节点只能更新自身摘要部分,限制了快节点高频更新对整体权重的影响;所述方法通过在参数服务器上设置版本感知机制对权重摘要的版本进行记录,使得参数服务器聚合时可以根据工作节点不同的版本确定不同的加权比例,当整体版本差距过大时,通过全局更新的方式将慢节点中使用的旧权重更新到最新权重,从而提高慢节点的更新效率,使参数服务器上的模型更快的收敛。本发明专利技术可有效地提高基于联邦学习的机器学习模型的训练速度。高基于联邦学习的机器学习模型的训练速度。高基于联邦学习的机器学习模型的训练速度。

【技术实现步骤摘要】
基于异步联邦学习的参数聚合更新方法、设备及系统


[0001]本专利技术属于数据处理
,具体涉及一种用于移动互联网的基于异步联邦学习的参数聚合更新方法、设备及系统。

技术介绍

[0002]近年来,智能手机、平板电脑、可穿戴设备等移动设备逐渐成为人们日常生活的组成部分。这些移动设备通常装备了种类丰富的传感器,可感知诸如图像、声音、加速度等传感器数据。随着这些设备的普及,诸如运动检测、图像识别、自然语言处理等移动互联网应用逐渐流行。这些应用通常基于机器学习模型对用户提交的感知数据进行处理并返回处理结果。理想情况下,用于处理用户数据的机器学习模型可使用来自不同用户的大量标记数据进行训练以提高模型的表达性能和泛化性能。然而出于隐私与安全原因,用户通常不愿意上传这些数据。
[0003]针对此问题,谷歌提出了联邦学习用于解决机器学习模型训练的数据需求与用户数据隐私保护之间的矛盾。联邦学习是一种分布式机器学习框架,能够在满足用户隐私与数据安全的同时有效利用数据进行机器学习模型训练。具体而言,联邦学习利用移动设备(工作节点)本地计算能力和数据训练机器学习模型,然后将训练后的模型参数在服务器端聚合并作为下一轮本地训练的初始参数,迭代上述过程直至达到最终模型达到最好的泛化性能。图1是常见的异步联邦学习聚合更新模式。由于所有用户数据都只用于本地模型训练,联邦学习充分保护了用户隐私与数据安全。
[0004]尽管具有上述优点,联邦学习在实现时经常面临以下问题:1)由于多个工作节点上可用的计算、通信资源以及数据量通常不同,因此工作节点完成每轮本地训练后提交模型参数的时间存在差异。这会造成参数服务器因等待慢节点上传参数而延长训练时间(即落跑者问题)。2)由于多个工作节点上的数据通常不能服从相同概率分布,这会造成不同工作节点的本地模型收敛方向均与参数服务器不一致,从而降低了整体训练速度。
[0005]为解决上述问题,现有工作提出了基于指数滑动平均的联邦学习方法。指数滑动平均是指工作节点在参数服务器中以某个比例(假设为a)加和,随着其他节点的更新,本节点在全局权重中的比例以指数a
t
衰减,其中t是本次更新后经过的其他更新次数。参数服务器在接收到某个工作节点发来的神经网络参数(权重)后,参数服务器将保存的平均权重与工作节点发来的权重加权平均以得到新的平均权重,并将此权重返回给工作节点。由于参数服务器不再需要等待收集完所有工作节点相同版本的参数后进行聚合,因而解决了落跑者问题,提高了训练速度。加权平均的策略将由非独立用分布数据训练的模型参数聚合成一个全局泛化能力更强的模型参数,从而缓解了非独立用分布数据的影响。但是也存在如下问题:1)快节点频繁提交权重会造成聚合后的模型参数偏离其他节点上模型的收敛方向;2)慢节点滞后提交的参数会阻碍参数服务器模型的收敛,并且此影响无法完全消除。这些问题会显著影响参数服务器上模型的收敛速度。具体参照图2,左边包含多个小矩形的整个矩形代表参数服务器上的模型参数,其中不同小矩形是指不同更新在参数服务器上所占
据的比例,浅灰色部分代表这个权重更新是有效的/及时的,深灰色代表这部分与最新的权重已经有较大差距,会影响全局模型效果。右边的环状图从上到下表现了随着时间,参数服务器中不同节点所占据的比例变化情况,可以看到传统的指数滑动平均方案会严重的偏向快节点的更新结果。此外,当训练节点差距过大时,甚至会导致模型不收敛。上述问题的主要原因在于指数滑动平均只保存了一个全局平均权重,导致工作节点提交的参数一旦被聚合到参数服务器平均权重中,就不能对这个权重做任何修改,只能等待之后的每次更新所占比例下降。
[0006]因此,有必要对基于联邦学习机制的神经网络参数聚合更新方式加以改进。

技术实现思路

[0007]专利技术目的:针对现有的异步联邦学习的聚合更新策略指数滑动平均的不足,本专利技术提出了一种基于异步联邦学习的参数聚合更新方法,解决因工作节点训练速度差异而导致的模型收敛速度降低问题。
[0008]本专利技术还提供实现上述方法的相应的设备及系统。
[0009]技术方案:为了实现以上专利技术目的,本专利技术的技术方案如下:
[0010]第一方面,一种基于异步联邦学习的参数聚合更新方法,用于参数服务器端,所述方法包括以下步骤:
[0011]随机选择n个工作节点,向选择的工作节点分发神经网络模型、神经网络模型初始参数、训练轮次T、超时时间tl,设置最大版本差距阈值th,并初始化本地版本为version
latest

1,初始化α表示调节参数;
[0012]接收工作节点传来的节点id、神经网络权重w,并保存server
w
[id]←
w;
[0013]本地版本递增version
latest

version
latest
+1,并根据工作节点传来的神经网络权重w,计算当前最新权重w
latest

[0014]判断当前最新权重w
latest
是否达到预设训练精度ta要求,如果测试集精度大于等于ta,则停止训练;如果测试集精度小于ta,则判断当前整体版本差距是否大于最大版本差距阈值th:
[0015]如果版本差距超过阈值th,则发送最新权重w
latest
到所有节点;
[0016]如果版本差距小于阈值th,则发送最新权重w
latest
到刚接收权重的工作节点;
[0017]等待工作节点下次传来节点id、神经网络权重w,进行下一轮更新。
[0018]其中,参数服务器端根据下式计算当前最新权重w
latest

[0019][0020]式中,α表示调节参数,server
w
[i]表示工作节点i在参数服务器上存储的神经网络权重w。
[0021]第二方面,一种基于异步联邦学习的参数聚合更新方法,用于工作节点端,所述方法包括以下步骤:
[0022]接收参数服务器发来的神经网络模型、神经网络模型初始参数、训练轮次T、超时时间tl;
[0023]在本地进行T轮训练,并将训练产生的权重参数w以及本节点的id发送给参数服务器;
[0024]如果在超时时间tl内接收到参数服务器发来的最新权重w
latest
,则将本地神经网络模型中的权重更新为最新权重;
[0025]利用更新后的权重进行训练。
[0026]第三方面,一种用于在参数服务器端进行基于异步联邦学习的参数聚合更新的设备,所述设备包括:
[0027]存储器,存储有一个或多个计算机程序,所述一个或多个计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器执行如本专利技术第一方面所述的参数聚合更新方法。
[0028]第四方面,一种用于在工作节点端进行基于异步联邦学习的参数聚合更新的设备,所述设备包括:
[0029本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异步联邦学习的参数聚合更新方法,其特征在于,用于参数服务器端,所述方法包括以下步骤:随机选择n个工作节点,向选择的工作节点分发神经网络模型、神经网络模型初始参数、训练轮次T、超时时间tl,设置最大版本差距阈值th,并初始化本地版本为version
latest

1,初始化α表示调节参数;接收工作节点传来的节点id、神经网络权重w,并保存server
w
[id]

w;本地版本递增version
latest

version
latest
+1,并根据工作节点传来的神经网络权重w,计算当前最新权重w
latest
;判断当前最新权重w
latest
是否达到预设训练精度ta要求,如果测试集精度大于等于ta,则停止训练;如果测试集精度小于ta,则判断当前整体版本差距是否大于最大版本差距阈值th:如果版本差距超过阈值th,则发送最新权重w
latest
到所有节点;如果版本差距小于阈值th,则发送最新权重w
latest
到刚接收权重的工作节点;等待工作节点下次传来节点id、神经网络权重w,进行下一轮更新。2.根据权利要求1所述的基于异步联邦学习的参数聚合更新方法,其特征在于,参数服务器端根据下式计算当前最新权重w
latest
:式中,α表示调节参数,server
w
[i]表示工作节点i在参数服务器上存储的神经网络权重w。3.根据权利要求1所述的基于异步联邦学习的参数聚合更新方法,其特征在于,判断当前整体版本差距是否大于最大版本差距阈值th包括:判断前整体版本差距是否大于最大版本差距阈值th包括:判断是否大于最大版本差距阈值th,server
w

【专利技术属性】
技术研发人员:陈瑞锋谢在鹏朱晓瑞屈志昊叶保留许峰
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1