当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于神经网络模型剪枝的个性化协作学习方法和装置制造方法及图纸

技术编号:33278619 阅读:18 留言:0更新日期:2022-04-30 23:38
本发明专利技术公开了一种基于神经网络模型剪枝的个性化协作学习方法和装置,其中,该方法包括:利用中心服务器初始化全局模型,并将全局模型下发至各边缘设备;各边缘设备接收到全局模型后,分别对全局模型进行训练以得到本地模型,基于本地模型对模型参数的重要性进行评估,并生成参数掩码矩阵;各边缘设备通过参数掩码矩阵,对参与协作训练的模型进行剪枝,将剪枝后的模型作为学生网络对本地模型进行知识蒸馏,并将剪枝后的模型上传至中心服务器,以对未被剪去的参数进行聚合。本发明专利技术能够保持模型对本地数据的适应能力,同时能够增强模型的泛化能力,在参数聚合时能避免数据分布差异过大的模型相互干扰。过大的模型相互干扰。过大的模型相互干扰。

【技术实现步骤摘要】
一种基于神经网络模型剪枝的个性化协作学习方法和装置


[0001]本专利技术涉及深度学习(协作学习)领域,尤其涉及一种基于神经网络模型剪枝的个性化协作学习方法和装置。

技术介绍

[0002]近些年来,随着大数据时代的到来以及计算设备算力的大幅度提升,深度学习技术已经得到充分的发展与应用,比如在计算视觉、自然语言处理、自动驾驶和网络空间安全等领域都有非常丰富的落地场景。以往深度学习训练模型的方式需要将大量的数据汇集到数据中心,进行集中式的训练。这种集中式的训练方式带来两个问题。首先,从数以千万记的边缘设备上采集数据将会带来庞大的上行带宽消耗。以中国和美国为代表的许多国家,互联网络的上行带宽远小于下行带宽,大规模的上传数据很容易造成网络拥塞,降低系统的运行效率;更令人担忧的是,将边缘设备上的数据传输到中心服务器可能泄露边缘设备用户的数据隐私,带来巨大的安全隐患。
[0003]协作学习作为一种新型深度学习范式较好地解决了以上两个问题。协作学习是以一个中心服务器(群)组织若干边缘设备进行模型训练。中心服务器将全局模型下发至各个边缘设备。各边缘设备使用各自的数据以及梯度下降算法在本地对模型参数进行更新,待完成参数更新后,再将模型的更新结果上传至中心服务器。中心服务器对从各个边缘设备收到的模型更新结果进行参数聚合,从而实现全局模型的训练。在协作学习的过程中,用户数据始终保留在设备本地,边缘设备与中心服务器之间只传输模型参数的更新结果,极大程度地避免了数据隐私的泄露。但是协作学习依然面临诸多棘手问题:其一,通信效率的问题依然没有得到彻底解决。在协作学习过程中,需要在边缘设备和中心服务器之间相互传输模型更新结果,如果模型参数量很大,将会消耗大量的网络传输资源。其二,对于集中式的模型训练方式,默认的前提假设为数据分布是独立同分布的,并且这一假设在该训练方式下也往往能够成立。而在真实的分布式互联网架构的场景下,各边缘设备上的数据差异很大,数据分布不再满足这一假设,这对于模型的训练效果将产生很大的负面影响。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此,本专利技术的目的在于设计一种通信高效的个性化协作学习方法,使之在非独立同分布的数据环境下依然能够取得很好的模型训练效果,在各边缘设备的数据分布差异很大的情况下,依然能够训练得到适应于各自数据的个性化模型,并进一步提升模型的预测准确度;通过生成掩码矩阵对网络模型进行剪枝,为进一步压缩模型的传输规模奠定了基础;相比于主流协作学习方法仅多引入了目标裁剪率这一超参数,使得本方法的调优十分容易,也使得本方法能够快速、可靠地部署到各种现实的复杂环境当中。
[0006]本专利技术的另一个目的在于提出一种基于神经网络模型剪枝的个性化协作学习装置。
[0007]为达上述目的,本专利技术一方面提出了一种基于神经网络模型剪枝的个性化协作学习方法,包括以下步骤:
[0008]S1,利用中心服务器初始化全局模型,并将全局模型下发至各边缘设备;
[0009]S2,各边缘设备接收到全局模型后,分别对全局模型进行训练以得到本地模型,基于本地模型对模型参数的重要性进行评估,并生成参数掩码矩阵;以及,
[0010]S3,各边缘设备通过参数掩码矩阵,对参与协作训练的模型进行剪枝,将剪枝后的模型作为学生网络对本地模型进行知识蒸馏,并将剪枝后的模型上传至中心服务器,以对未被剪去的参数进行聚合。
[0011]本专利技术实施例的基于神经网络模型剪枝的个性化协作学习方法,利用中心服务器初始化全局模型,并将全局模型下发至各边缘设备;各边缘设备接收到全局模型后,分别对全局模型进行训练以得到本地模型,基于本地模型对模型参数的重要性进行评估,并生成参数掩码矩阵;各边缘设备通过参数掩码矩阵,对参与协作训练的模型进行剪枝,将剪枝后的模型作为学生网络对本地模型进行知识蒸馏,并将剪枝后的模型上传至中心服务器,以对未被剪去的参数进行聚合。本专利技术能够保持模型对本地数据的适应能力,也能够增强模型的泛化能力,并为压缩参数矩阵奠定了基础,在参数聚合时还能够避免数据分布差异过大的模型相互干扰,从而实现高效通信的个性化模型训练。
[0012]另外,根据本专利技术上述实施例的基于神经网络模型剪枝的个性化协作学习方法还可以具有以下附加的技术特征:
[0013]进一步地,步骤S2,包括:
[0014]S21,利用边缘设备C
k
基于全局模型使用C
k
本地数据进行训练,至收敛时停止,得到模型ω

k

[0015]S22,基于模型ω

k
对参数的重要性进行评估,得到参数w
ij
的重要性权值Ω
ij

[0016]S23,基于重要性权值Ω
ij
得到重要性权值矩阵Ω
k
,根据重要性权值矩阵Ω
k
生成参数掩码矩阵m
k

[0017]进一步地,步骤S22中的重要性权值Ω
ij
,包括:
[0018]重要性权值Ω
ij
,是根据如下等式计算得到:
[0019][0020]其中,N
dp
是评估模型参数重要性的过程中所使用的数据样例的数量,g
ij
(x
d
)是参数w
ij
对于数据样例x
d
的更新梯度;
[0021]更新梯度g
ij
(x
d
),是根据如下等式计算得到:
[0022][0023]其中,F(x
d
;w)为模型w在数据样例x
d
上的输出,为L2范数。
[0024]进一步地,步骤S23,包括:
[0025]根据目标裁剪率p,对于每层神经网络,对重要性权值矩阵的元素按照绝对值大小进行排序,裁剪绝对值最小的p比例的元素对应的权重,则掩码矩阵m
k
对应位置的元素值为
0,未被裁剪的权重的对应位置的元素值为1,以得到参数掩码矩阵m
k

[0026]进一步地,步骤S3,包括:
[0027]S31,对于N个边缘设备以及随机采样率K,随机采样N*K个边缘设备参与当前轮协作训练,则参与第r轮协作训练的边缘设备数量为s=max(N*K,1),边缘设备构成集合S
r
={C1,...,C
s
};
[0028]S32,中心服务器将全局模型下发至S31中选出的边缘设备S
r
,各边缘设备 C
k
∈S
r
接收到全局模型后,对全局模型使用参数掩码矩阵m
k
进行裁剪,为
[0029]S33,利用边缘设备C
k
对模型的训练,将训练完成后的模型上传至中心服务器;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络模型剪枝的个性化协作学习方法,其特征在于,包括以下步骤:S1,利用中心服务器初始化全局模型,并将所述全局模型下发至各边缘设备;S2,所述各边缘设备接收到所述全局模型后,分别对所述全局模型进行训练以得到本地模型,基于所述本地模型对模型参数的重要性进行评估,并生成参数掩码矩阵;以及,S3,所述各边缘设备通过所述参数掩码矩阵,对参与协作训练的模型进行剪枝,将剪枝后的模型作为学生网络对所述本地模型进行知识蒸馏,并将所述剪枝后的模型上传至所述中心服务器,以对未被剪去的参数进行聚合。2.根据权利要求1所述的基于神经网络模型剪枝的个性化协作学习方法,其特征在于,所述S2,包括:S21,利用边缘设备C
k
基于全局模型使用C
k
本地数据进行训练,至收敛时停止,得到模型ω

k
;S22,基于所述模型ω

k
对参数的重要性进行评估,得到参数w
ij
的重要性权值Ω
ij
;S23,基于所述重要性权值Ω
ij
得到重要性权值矩阵Ω
k
,根据所述重要性权值矩阵Ω
k
生成参数掩码矩阵m
k
。3.根据权利要求2所述的基于神经网络模型剪枝的个性化协作学习方法,其特征在于,所述重要性权值Ω
ij
,是根据如下等式计算得到:其中,N
dp
是评估模型参数重要性的过程中所使用的数据样例的数量,g
ij
(x
d
)是参数w
ij
对于数据样例x
d
的更新梯度;所述更新梯度g
ij
(x
d
),是根据如下等式计算得到:其中,F(x
d
;w)为模型w在数据样例x
d
上的输出,为L2范数。4.根据权利要求2所述的基于神经网络模型剪枝的个性化协作学习方法,其特征在于,所述S23,包括:根据目标裁剪率p,对于每层神经网络,对重要性权值矩阵的元素按照绝对值大小进行排序,裁剪绝对值最小的p比例的元素对应的权重,则掩码矩阵m
k
对应位置的元素值为0,未被裁剪的权重的对应位置的元素值为1,以得到所述参数掩码矩阵m
k
。5.根据权利要求1所述的基于神经网络模型剪枝的个性化协作学习方法,其特征在于,所述S3,包括:S31,对于N个边缘设备以及随机采样率K,随机采样N*K个边缘设备参与当前轮协作训练,则参与第r轮协作训练的边缘设备数量为s=max(N*K,1),边缘设备构成集合S
r
={C1,...,C
s
};S32,中心服务器将全局模型下发至所述S31中选出的边缘设备S
r
,各边缘设备C
k
∈S
...

【专利技术属性】
技术研发人员:徐恪刘泱赵乙朱敏
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1