基于注意力机制的个性化联邦学习泛化方法、设备、应用技术

技术编号：39307569 阅读：20 留言：0更新日期：2023-11-12 15:55

本发明专利技术涉及一种基于注意力机制的个性化联邦学习泛化方法、设备、应用，包括：初始化全局模型的共享参数并发送给预先建立连接的一个客户端，接收各个客户端经过本地训练后的共享参数以及个性化参数，基于各个客户端的共享参数更新服务端的共享参数；将已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端，在新客户端利用基于注意力机制的超网络生成个性化参数。新客户端采用本地数据进行训练以更新超网络参数，而非本地模型参数。即共享参数部分不变，通过超网络学习生成新客户端的个性化参数。本发明专利技术在构造新客户端的超网络时，超网络同时参考各个模型的个性化参数，以引入客户端个性化参数的相关性信息，提升最终效果。提升最终效果。提升最终效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制的个性化联邦学习泛化方法、设备、应用

[0001]本专利技术涉及人工智能
，尤其是涉及一种基于注意力机制的个性化联邦学习泛化方法、设备、应用。

技术介绍

[0002]联邦学习通过共享各客户端数据训练出来的参数或梯度，在“数据孤岛”（即各个客户端之间数据不互通，也不上传至服务器）的前提下训练通用模型，保护客户端的数据隐私。个性化联邦学习是常用的联邦学习方法，目的是针对各个客户端数据分布不同，保留个性化的模型参数，适应本客户端的数据分布，以提升本地模型的效果。
[0003]个性化联邦学习涉及到一个重要问题，即如何保证模型的泛化性。具体来说，当新增客户端，尤其是可训练数据较少的客户端时，新客户端的效果往往难以保证。原因是，当数据较少时，本地模型直接进行整体参数的训练，容易出现过拟合现象，降低模型效果。
[0004]中国专利公开号CN115600686A公开了一种基于个性化Transformer的联邦学习系统，该申请通过在服务端设置一个超网络并为新加入的客户端分配随机初始化的嵌入向量再利用本地数据训练新客户端的个性化模型。然而，随机初始化的可训练嵌入向量不容易收敛，另外各客户端的模型结构缺乏灵活性，仅适用于transformer一类带有注意力层的本地模型。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于注意力机制的个性化联邦学习泛化方法、设备、应用，通过缓和过拟合提高新客户端的收敛性，提高训练效果。
[0006]本专利技术...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，应用于服务端，包括如下步骤：初始化全局模型的共享参数并发送给预先建立连接的至少一个客户端，接收并储存各个客户端经过本地训练后的共享参数以及个性化参数，基于各个客户端的共享参数更新服务端的共享参数，多次执行本步骤直至达到终止条件；将各个已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端，在新客户端利用基于注意力机制的超网络生成个性化参数，并基于新客户端的本地数据训练超网络，完成新客户端超网络个性化参数的本地更新。2.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，所述的终止条件为通信轮次达到预设值。3.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，所述的超网络的输入为各个已有客户端的个性化参数，输出为新客户端的个性化参数。4.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，所述的基于注意力机制的超网络包括：全连接层，用于生成隐向量；多个标准化层以及多个设置在标准化层之间的自注意力层，用于根据隐向量生成新客户端的个性化参数。5.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，所述的新客户端的共享参数采用服务端的共享参数。6.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法，其特征在于，还包括如下步骤：接收包括经过参数初始化后新客户端在内的多...

【专利技术属性】
技术研发人员：张璐，杨耀，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人