基于动态自适应知识蒸馏的联邦学习模型聚合方法技术

技术编号：38706840 阅读：16 留言：0更新日期：2023-09-08 14:47

本发明专利技术提供了一种基于动态自适应知识蒸馏的联邦学习模型聚合方法，可以有效缓解数据异质性带来的精度下降问题。方法包括全局模型初始化、本地模型训练、聚合生成全局模型三个阶段。本发明专利技术在本地模型训练阶段使用知识蒸馏技术促进客户端学习全局模型，动态调整知识蒸馏比例使客户端可以根据各自情况自适应学习全局模型，并且动态调整教师模型输出分布使客户端更有效地利用知识蒸馏中教师模型的知识，使得聚合后服务器能够有效生成性能更优的全局模型，同时保证不泄露聚合过程中局部模型和全局模型的额外隐私。本发明专利技术能够在保证用户隐私安全的前提下，协同多方训练生成更优的全局模型。模型。模型。

全部详细技术资料下载

【技术实现步骤摘要】
基于动态自适应知识蒸馏的联邦学习模型聚合方法

[0001]本专利技术涉及隐私保护和数据安全
，特别涉及一种基于动态自适应知识蒸馏的联邦学习模型聚合方法。

技术介绍

[0002]传统的集中式学习要求在手机等本地设备上收集的所有数据都要集中存储在数据中心或云服务器上。这一要求不仅引起了对隐私风险和数据泄露的担忧，而且在数据量巨大时，对服务器的存储和计算能力提出了很高的要求。
[0003]联邦学习是目前在隐私约束下最广泛采用的机器学习模型协作训练框架，旨在训练一个全局模型，可以在分布在不同设备上的数据上进行训练，同时保护数据隐私。但是联邦学习中每个客户端上的训练数据在很大程度上依赖于特定本地设备的使用情况，因此，客户端的数据分布可能彼此完全不同。这种现象被称为非独立同分布(Non
‑
IID)，它可能会导致严重的模型发散，导致精度降低，模型收敛缓慢甚至无法收敛。也就是说，由于局部数据分布的异质性，具有相同初始参数的局部模型会收敛到不同的模型。在联邦学习过程中，通过平均上传的局部模型得到的共享全局模型与理想模型(本地设备上的数据为IID时得到的模型)之间的差异持续增加，收敛速度减慢，使学习性能恶化。
[0004]虽然目前已经有一些研究提出可以在本地模型训练时使用知识蒸馏技术约束本地模型向全局模型学习来解决这一问题，但仍然存在许多问题。比如固定的知识蒸馏比例不能自主适应训练过程中的多变性，或是需要额外的辅助数据集来帮助判断合适的知识蒸馏比例，在现实应用中仍然存在诸多困难。因此，如何更好地利...

【技术保护点】

【技术特征摘要】
1.基于动态自适应知识蒸馏的联邦学习模型聚合方法，其特征在于：包括如下步骤：步骤1：服务器初始化全局模型并将其发送至参与本轮训练的客户端；步骤2：客户端接收到全局模型后，确定本轮知识蒸馏中对收到的全局模型学习的比例，自适应调整学习本地数据集和全局模型的比例，并动态调整教师模型的输出，使其处于最适合学习的分布状态，训练生成本地模型，并上传给服务器；步骤3：对接收到的本地模型进行聚合生成新的全局模型从而完成本轮训练过程。2.如权利要求1所述的基于动态自适应知识蒸馏的联邦学习模型聚合方法，其特征在于：步骤1中：服务器根据训练任务选择待训练的模型作为本轮全局模型M；然后选择参与本轮训练的客户端c1，c2，...，c
n
(1≤n≤N)，将全局模型下发给参与训练的客户端；其中客户端c1，c2，...，c
N
为N个独立的客户端，客户端各自拥有独立的数据D1，D2，...，D
N
。3.如权利要求1所述的基于动态自适应知识蒸馏的联邦学习模型聚合方法，其特征在于：步骤3中：在接收到全部客户端上传的全部本地模型后，采用联邦平均算法对本地模型进行聚合形成新的全局模型。4.如权利要求3所述的基于动态自适应知识蒸馏的联邦学习模型聚合方法，其特征在于：计算每个客户端数据集大小占总数据集大小的比例，按照比例对对应本地模型参数进行加权形成全局模型的参数进而得到新的全局模型。5.如权利要求1
‑
4任一所述的基于动态自适应知识蒸馏的联邦学习模型聚合方法，其特征在于：步骤2中包括：步骤2.1：客户端保存全局模型作为知识蒸馏的教师模型，计算当前客户端对于教师模型的知识蒸馏比例；步骤2.2：客户端计算教师模型输出分布平缓程度；步骤2.3：客户端把全局模型作为本地模型的初始模型，利用本地训练数据集训练本地模型；并且把本地模型作为知识蒸馏中的学生模型，使用步骤2.1、2.2中计算出的知识蒸馏比例和输出分布平缓程度约束教师模型的知识蒸馏过程；步骤2.4：客户端将本地模型上传给服务器。6.如权利要求5所述的基于动态自适应知识蒸馏的联邦学习模型聚合方法，其特征在于：步骤2.1中：利用本地数据集确定本轮知识蒸馏中对收到的全局模型学习的比例；客户端c
i
(1≤i≤n)接收服务器下发的模型M，作为本地模型m
i
的教师模型，参与本地模型m
i
优化训练过程；客户端利用本地训练数据集D
i
＝(x，y)，测试教师模型在本地训练数据集D
i
上的准确度A
i
；已知数据样本x和对应标签y，输入教师模型，模型产生logit向量z(x)，然后通过softmax函数输出预...

【专利技术属性】
技术研发人员：吕军，马晓静，赵瑞欣，付佳韵，陈付龙，苌婉婷，
申请(专利权)人：安徽师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人