一种基于神经网络模型剪枝的个性化协作学习方法和装置制造方法及图纸

技术编号：33278619 阅读：18 留言：0更新日期：2022-04-30 23:38

本发明专利技术公开了一种基于神经网络模型剪枝的个性化协作学习方法和装置，其中，该方法包括：利用中心服务器初始化全局模型，并将全局模型下发至各边缘设备；各边缘设备接收到全局模型后，分别对全局模型进行训练以得到本地模型，基于本地模型对模型参数的重要性进行评估，并生成参数掩码矩阵；各边缘设备通过参数掩码矩阵，对参与协作训练的模型进行剪枝，将剪枝后的模型作为学生网络对本地模型进行知识蒸馏，并将剪枝后的模型上传至中心服务器，以对未被剪去的参数进行聚合。本发明专利技术能够保持模型对本地数据的适应能力，同时能够增强模型的泛化能力，在参数聚合时能避免数据分布差异过大的模型相互干扰。过大的模型相互干扰。过大的模型相互干扰。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于神经网络模型剪枝的个性化协作学习方法和装置

[0001]本专利技术涉及深度学习(协作学习)领域，尤其涉及一种基于神经网络模型剪枝的个性化协作学习方法和装置。

技术介绍

[0002]近些年来，随着大数据时代的到来以及计算设备算力的大幅度提升，深度学习技术已经得到充分的发展与应用，比如在计算视觉、自然语言处理、自动驾驶和网络空间安全等领域都有非常丰富的落地场景。以往深度学习训练模型的方式需要将大量的数据汇集到数据中心，进行集中式的训练。这种集中式的训练方式带来两个问题。首先，从数以千万记的边缘设备上采集数据将会带来庞大的上行带宽消耗。以中国和美国为代表的许多国家，互联网络的上行带宽远小于下行带宽，大规模的上传数据很容易造成网络拥塞，降低系统的运行效率；更令人担忧的是，将边缘设备上的数据传输到中心服务器可能泄露边缘设备用户的数据隐私，带来巨大的安全隐患。
[0003]协作学习作为一种新型深度学习范式较好地解决了以上两个问题。协作学习是以一个中心服务器(群)组织若干边缘设备进行模型训练。中心服务器将全局模型下发至各个边缘设备。各边缘设备使用各自的数据以及梯度下降算法在本地对模型参数进行更新，待完成参数更新后，再将模型的更新结果上传至中心服务器。中心服务器对从各个边缘设备收到的模型更新结果进行参数聚合，从而实现全局模型的训练。在协作学习的过程中，用户数据始终保留在设备本地，边缘设备与中心服务器之间只传输模型参数的更新结果，极大程度地避免了数据隐私的泄露。但是协作学习依然面临诸多棘手问题：其一，通信效率的问题依然...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络模型剪枝的个性化协作学习方法，其特征在于，包括以下步骤：S1，利用中心服务器初始化全局模型，并将所述全局模型下发至各边缘设备；S2，所述各边缘设备接收到所述全局模型后，分别对所述全局模型进行训练以得到本地模型，基于所述本地模型对模型参数的重要性进行评估，并生成参数掩码矩阵；以及，S3，所述各边缘设备通过所述参数掩码矩阵，对参与协作训练的模型进行剪枝，将剪枝后的模型作为学生网络对所述本地模型进行知识蒸馏，并将所述剪枝后的模型上传至所述中心服务器，以对未被剪去的参数进行聚合。2.根据权利要求1所述的基于神经网络模型剪枝的个性化协作学习方法，其特征在于，所述S2，包括：S21，利用边缘设备C
k
基于全局模型使用C
k
本地数据进行训练，至收敛时停止，得到模型ω
′
k
；S22，基于所述模型ω
′
k
对参数的重要性进行评估，得到参数w
ij
的重要性权值Ω
ij
；S23，基于所述重要性权值Ω
ij
得到重要性权值矩阵Ω
k
，根据所述重要性权值矩阵Ω
k
生成参数掩码矩阵m
k
。3.根据权利要求2所述的基于神经网络模型剪枝的个性化协作学习方法，其特征在于，所述重要性权值Ω
ij
，是根据如下等式计算得到：其中，N
dp
是评估模型参数重要性的过程中所使用的数据样例的数量，g
ij
(x
d
)是参数w
ij
对于数据样例x
d
的更新梯度；所述更新梯度g
ij
(x
d
)，是根据如下等式计算得到：其中，F(x
d
；w)为模型w在数据样例x
d
上的输出，为L2范数。4.根据权利要求2所述的基于神经网络模型剪枝的个性化协作学习方法，其特征在于，所述S23，包括：根据目标裁剪率p，对于每层神经网络，对重要性权值矩阵的元素按照绝对值大小进行排序，裁剪绝对值最小的p比例的元素对应的权重，则掩码矩阵m
k
对应位置的元素值为0，未被裁剪的权重的对应位置的元素值为1，以得到所述参数掩码矩阵m
k
。5.根据权利要求1所述的基于神经网络模型剪枝的个性化协作学习方法，其特征在于，所述S3，包括：S31，对于N个边缘设备以及随机采样率K，随机采样N*K个边缘设备参与当前轮协作训练，则参与第r轮协作训练的边缘设备数量为s＝max(N*K，1)，边缘设备构成集合S
r
＝{C1，...，C
s
}；S32，中心服务器将全局模型下发至所述S31中选出的边缘设备S
r
，各边缘设备C
k
∈S
...

【专利技术属性】
技术研发人员：徐恪，刘泱，赵乙，朱敏，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人