一种基于并行过参数化的高效联邦学习稀疏训练方法技术

技术编号:34607756 阅读:50 留言:0更新日期:2022-08-20 09:12
本发明专利技术公开了一种基于并行过参数化的高效联邦学习稀疏训练方法,旨在同时降低联邦学习的训练和通信开销,该方法属于联邦学习以及模型稀疏训练的交叉领域。具体包括以下步骤:S1、稀疏初始化,服务端将原始密集网络稀疏化;S2、寻找最优稀疏网络结构,通过将客户端分组执行并行参数探索达到并行过参数化,并在此基础上随着训练的推进动态地优化全局稀疏网络结构;S3、稀疏训练,使用步骤S2所寻找到的最优稀疏网络结构,由全部客户端所共享并继续训练至收敛。在联邦学习场景下,当采用VGG11网络在CIFAR10数据集上训练时,本发明专利技术仅使用原始模型5%的参数就能在准确率方面与其持平,并降低了71.8%的FLOPs计算开销和91.3%的通信开销。了71.8%的FLOPs计算开销和91.3%的通信开销。了71.8%的FLOPs计算开销和91.3%的通信开销。

【技术实现步骤摘要】
一种基于并行过参数化的高效联邦学习稀疏训练方法


[0001]本专利技术涉及计算机
,涉及联邦学习框架算法与深度学习模型稀疏训练的交叉领域,尤其是一种基于并行过参数化的高效联邦学习稀疏训练方法。

技术介绍

[0002]涉及两大块
技术介绍
:联邦学习,深度学习模型稀疏训练。
[0003]1)联邦学习
[0004]当下,亿万级的边缘设备被连接到互联网,并且产生的海量数据可以被用来训练更强大且精确的模型。为了充分挖掘海量边缘数据的价值,联邦学习被视为一种最具潜力的解决方案,其最大的优势在于可以在保护客户端数据隐私安全的基础上联合多方的数据。但是传统联邦学习框架需要强大的计算能力、通信带宽以及存储空间,这无疑限制了联邦学习在资源受限的边缘设备上的部署。
[0005]一些工作聚焦于控制联邦学习的聚合频率来提高通信效率,如根据设备的资源状况自适应调整聚合频率,但这些工作不能降低联邦学习庞大的训练开销,也不能提高模型部署后的推理速度。
[0006]另外有一些研究利用自适应模型剪枝来同时降低计算和通信开销,这些工作共同的特征是从一个原始密集模型出发,随着训练的推进,通过逐步的修剪原始网络直到预期的稀疏度。显然,他们在训练的早中期仍需要消耗大量的资源。
[0007]2)深度学习模型稀疏训练
[0008]深度学习模型稀疏训练是一种可以有效降低计算开销的方法,已得到了长足的发展。彩票假设(LTH)验证了从头训练一个稀疏子网络(中奖彩票网络)可以获得与原始密集模型相同的测试精度。受彩票假设的启发,许多研究探索了如何在初始化时修剪神经网络至稀疏化的可行性,并使用初始化时获得的稀疏网络代替原始网络进行训练,如SNIP基于模型参数对损失函数敏感性(connection sensitivity)来判断连接重要性的;GraSP应用梯度流信号(Gradient Signal Preservation)来遴选稀疏网络;Synflow则能够缓解极端稀疏时精度损失严重的问题。然而这类方法不可避免地带来了一定程度上的精度损失,这是因为相较于过参数化的原始模型,这类方法所寻找到的稀疏网络的拟合能力要差于原始密集网络。
[0009]动态稀疏训练(DST)被认为是一种实用的稀疏到稀疏的训练方法,其关键思想是在训练期间动态调整优化稀疏网络的结构。动态稀疏训练方法通常包括两个部分:(1)根据模型参数的权重,裁剪掉绝对值最小的一部分;(2)再重新根据一些规则探索新的参数,(如SET采用随机探索的方式;RigL则选择优先探索梯度绝对值较大的新参数;而SNFS根据动量去探索新参数)。动态稀疏训练所带来的好处是因为它可以被视为时间序列上的过参数化,即在训练的过程中,允许持续的参数探索可以在时间轴上覆盖所有原始参数空间。但是将动态稀疏训练直接引入到联邦学习中来效果不好,主要是因为它简单的根据权重绝对值来优化稀疏网络不能很好的适应于数据分布复杂的联邦学习。

技术实现思路

[0010]本专利技术的目的是提供了一种基于并行过参数化的高效联邦学习稀疏训练方法,旨在降低联邦学习的训练和通信开销。
[0011]实现本专利技术目的的具体技术方案是:
[0012]一种基于并行过参数化的高效联邦学习稀疏训练方法,特点是该方法包括如下步骤:
[0013]S1、稀疏初始化,服务端将原始密集网络稀疏化;
[0014]S2、寻找最优稀疏网络结构,通过将客户端分组执行并行参数探索达到并行过参数化,并在此基础上随着训练的推进动态地优化全局稀疏网络结构;
[0015]S3、稀疏训练,使用步骤S2所寻找到的最优稀疏网络结构,由全部客户端所共享并继续训练至收敛;其中:
[0016]所述步骤S1具体包括:服务端在联邦学习开始前根据模型参数的连接敏感性对原始密集网络进行稀疏化;定义模型的稀疏度S为被裁剪掉的参数数量与总参数量之比,使用二进制掩码M∈{0,1}
|θ|
来表示原始网络的参数是否被保留下来,即代表了稀疏网络的结构;从一个给定的原始密集网络θ出发,在训练开始之前,服务端使用一个小批次的数据送入原始网络计算一次前向传播,进而计算每个模型参数对损失函数L的连接敏感性分数g(θ):
[0017][0018]其中

为Hadamard内积,保留敏感性分数绝对值|g(θ)|最高的k个参数组成稀疏度为S的初始全局稀疏网络结构M
G
,其中k=(1

S

(1

S)f)
×
|θ|,f是被预留用于探索新参数的总参数量与稀疏程度为S的总参数量之比;;
[0019]所述步骤S2的目标是获得最优稀疏网络结构M,具体包括:
[0020]S2

1、客户端分组:服务端将全部客户端随机分成Z组;
[0021]S2

2、并行过参数化:每隔

T个通信轮次动态演化更新稀疏网络的结构;基于全局稀疏网络结构M
G
,服务端为每一个组j,在原始密集网络的参数空间内随机探索f比例的新参数以维持总的稀疏度S不变,以此组成新的稀疏网络结构M
j
,然后服务端将M
j
下发给组j的每个客户端;通过合并各组之间的协同合作所探索覆盖到的参数,使得单次参数探索的参数覆盖率是现存动态稀疏训练方、法的Z倍,当探索到的参数覆盖到了原始模型的全部参数时,就能在空间角度上达到另一种过参数化形式——并行过参数化,并由此获得一个并行过参数化模型θ
POP

[0022]θ
POP
=[θ

M1,θ

M2,



M
z
]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0023]运算符[

]表示先分别独立计算每个部分,然后再把每个部分合并到一起;;
[0024]S2

3、本地训练:在客户端的本地训练中,位于组j中的客户端i应用稀疏网络结构M
j
在自己本地的数据集X
i
上,以学习率η迭代更新本地模型:
[0025][0026]当服务端与客户端之间通信时,只需根据掩码发送保留下来的参数即可,另外掩码的每个比特位代表对应参数是否保留,当原始模型采用32位的浮点数时,掩码只占用了1/32的额外通信开销;
[0027]S2

4、模型聚合:并行过参数化导致了模型异构的问题;为了保留不同稀疏网络结构的特有属性,将每个模型划分为两个组成部分:(1)公共部分参数θ
Public
,本部分参数对应于全局稀疏结构M
G
,被所有客户端所共享,因此所有客户端都参与公共部分参数的聚合;(2)私有部分参数θ
Private
,即新探索的参数,每个组都不相同,因此该部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于并行过参数化的高效联邦学习稀疏训练方法,其特征在于,该方法包括如下步骤:S1、稀疏初始化,服务端将原始密集网络稀疏化;S2、寻找最优稀疏网络结构,通过将客户端分组执行并行参数探索达到并行过参数化,并在此基础上随着训练的推进动态地优化全局稀疏网络结构;S3、稀疏训练,使用步骤S2所寻找到的最优稀疏网络结构,由全部客户端所共享并继续训练至收敛;其中:所述步骤S1具体包括:服务端在联邦学习开始前根据模型参数的连接敏感性对原始密集网络进行稀疏化;定义模型的稀疏度S为被裁剪掉的参数数量与总参数量之比,使用二进制掩码M∈{0,1}
|θ|
来表示原始网络的参数是否被保留下来,即代表了稀疏网络的结构;从一个给定的原始密集网络θ出发,在训练开始之前,服务端使用一个小批次的数据送入原始网络计算一次前向传播,进而计算每个模型参数对损失函数L的连接敏感性分数g(θ):其中

为Hadamard内积,保留敏感性分数绝对值|g(θ)|最高的k个参数组成稀疏度为(1+f)
×
S的初始全局稀疏网络结构M
G
,其中k=(1

S

(1

S)f)
×
|θ|,f是被预留用于探索新参数的总参数量与稀疏程度为S的总参数量之比;所述步骤S2的目标是获得最优稀疏网络结构M,具体包括:S2

1、客户端分组:服务端将全部客户端随机分成Z组;S2

2、并行过参数化:每隔ΔT个通信轮次动态演化更新稀疏网络的结构;基于全局稀疏网络结构M
G
,服务端为每一个组j,在原始密集网络的参数空间内随机探索f比例的新参数以维持总的稀疏度S不变,以此组成新的稀疏网络结构M
j
,然后服务端将M
j
下发给组j的每个客户端;通过合并各组之间的协同合作所探索覆盖到的参数,使得单次参数探索的参数覆盖率是现存动态稀疏训练方法的Z倍,当探索到的参数覆盖到了原始模型的全部参数时,就能在空间角度上达到另一种过参数化形式一一并行过参数化,并由此获得一个并行过参数化模型θ
POP
:θ
POP
=[θ

M1,θ

M2,...,θ

M
z
]<...

【专利技术属性】
技术研发人员:郑海坤卢兴见刘文炎
申请(专利权)人:华东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1