当前位置: 首页 > 专利查询>之江实验室专利>正文

基于注意力机制的个性化联邦学习泛化方法、设备、应用技术

技术编号:39307569 阅读:20 留言:0更新日期:2023-11-12 15:55
本发明专利技术涉及一种基于注意力机制的个性化联邦学习泛化方法、设备、应用,包括:初始化全局模型的共享参数并发送给预先建立连接的一个客户端,接收各个客户端经过本地训练后的共享参数以及个性化参数,基于各个客户端的共享参数更新服务端的共享参数;将已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端,在新客户端利用基于注意力机制的超网络生成个性化参数。新客户端采用本地数据进行训练以更新超网络参数,而非本地模型参数。即共享参数部分不变,通过超网络学习生成新客户端的个性化参数。本发明专利技术在构造新客户端的超网络时,超网络同时参考各个模型的个性化参数,以引入客户端个性化参数的相关性信息,提升最终效果。提升最终效果。提升最终效果。

【技术实现步骤摘要】
基于注意力机制的个性化联邦学习泛化方法、设备、应用


[0001]本专利技术涉及人工智能
,尤其是涉及一种基于注意力机制的个性化联邦学习泛化方法、设备、应用。

技术介绍

[0002]联邦学习通过共享各客户端数据训练出来的参数或梯度,在“数据孤岛”(即各个客户端之间数据不互通,也不上传至服务器)的前提下训练通用模型,保护客户端的数据隐私。个性化联邦学习是常用的联邦学习方法,目的是针对各个客户端数据分布不同,保留个性化的模型参数,适应本客户端的数据分布,以提升本地模型的效果。
[0003]个性化联邦学习涉及到一个重要问题,即如何保证模型的泛化性。具体来说,当新增客户端,尤其是可训练数据较少的客户端时,新客户端的效果往往难以保证。原因是,当数据较少时,本地模型直接进行整体参数的训练,容易出现过拟合现象,降低模型效果。
[0004]中国专利公开号CN115600686A公开了一种基于个性化Transformer的联邦学习系统,该申请通过在服务端设置一个超网络并为新加入的客户端分配随机初始化的嵌入向量再利用本地数据训练新客户端的个性化模型。然而,随机初始化的可训练嵌入向量不容易收敛,另外各客户端的模型结构缺乏灵活性,仅适用于transformer一类带有注意力层的本地模型。

技术实现思路

[0005]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于注意力机制的个性化联邦学习泛化方法、设备、应用,通过缓和过拟合提高新客户端的收敛性,提高训练效果。
[0006]本专利技术的目的可以通过以下技术方案来实现:本专利技术的一个方面,提供了一种基于注意力机制的个性化联邦学习泛化方法,应用于服务端,包括如下步骤:初始化全局模型的共享参数并发送给预先建立连接的至少一个客户端,接收并储存各个客户端经过本地训练后的共享参数以及个性化参数,基于各个客户端的共享参数更新服务端的共享参数,多次执行本步骤直至达到终止条件;将各个已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端,在新客户端利用基于注意力机制的超网络生成个性化参数,并基于新客户端的本地数据训练超网络,完成新客户端超网络个性化参数的本地更新。
[0007]作为优选的技术方案,所述的终止条件为通信轮次达到预设值。
[0008]作为优选的技术方案,所述的超网络的输入为各个已有客户端的个性化参数,输出为新客户端的个性化参数。
[0009]作为优选的技术方案,所述的基于注意力机制的超网络包括:全连接层,用于生成隐向量;
多个标准化层以及多个设置在标准化层之间的自注意力层,用于根据隐向量生成新客户端的个性化参数。
[0010]作为优选的技术方案,所述的新客户端的共享参数采用服务端的共享参数。
[0011]作为优选的技术方案,还包括如下步骤:接收包括经过参数初始化后新客户端在内的多个客户端的共享参数以及个性化参数,基于各个客户端的共享参数加权更新服务端的共享参数。
[0012]作为优选的技术方案,基于各个客户端的共享参数,通过加权聚合更新服务端的共享参数。
[0013]本专利技术的另一个方面,提供了一种基于注意力机制的个性化联邦学习泛化方法,应用于未经训练的新客户端,包括如下步骤:接收多个已进行过本地训练的客户端的个性化参数,以及服务端经过加全局和的共享参数;利用本地数据训练更新基于注意力机制的超网络的参数,基于多个已进行过本地训练的客户端的个性化参数,利用训练后的超网络生成新客户端的个性化参数,将服务端经过加全局和的共享参数作为新客户端的共享参数;将更新后的个性化参数和共享参数上传至服务端。
[0014]本专利技术的另一个方面,提供了一种电子设备,包括:一个或多个处理器以及存储器,所述存储器内储存有一个或多个程序,所述一个或多个程序包括用于执行上述基于注意力机制的个性化联邦学习泛化方法的指令。
[0015]本专利技术的另一个方面,提供了上述基于注意力机制的个性化联邦学习泛化方法的应用,针对包括服务端以及至少一个车载端的车联网,所述的个性化联邦学习泛化方法应用于所述服务端,所述服务端部署有全局模型,所述车载端部署有本地模型,所述本地模型包括共享参数以及个性化参数,所述车载端还包括用于在加入车联网时生成所述个性化参数的超网络。
[0016]与现有技术相比,本专利技术具有以下优点:(1)改善新客户端训练的收敛性,提高训练效果:相比使用普通的全局平均模型做新客户端的初始化模型而后直接进行本地训练的方案,本专利技术使用基于注意力机制的超网络生成新客户端的个性化参数,既能保证新客户端模型的快速收敛,又避免了本地训练当中由于数据缺乏造成的过拟合,保留全局模型由于涵盖数据广泛而产生的泛化能力。不同于已有的为各个客户端分配嵌入向量以进行训练的方案,本专利技术的超网络训练输入即为各个已训练客户端的个性化参数,易于收敛。
[0017](2)适用于存在多种客户端模型结构的场景,适用性强:不同于已有的部分方案会限制客户端采用某一种网络结构,本专利技术的每个客户端的本地模型结构不受限,举例说明,既可以为CNN,也可以为transformer,也可以为其他结构,网络结构中的个性化层作为超网络的输出,因此客户端本地的训练可以更加灵活,不受算力条件等限制,另外,本申请的超网络位于客户端而非服务器,可以根据客户端本地的情况,灵活选择是否使用超网络。
附图说明
[0018]图1为实施例中应用于服务端的联邦学习泛化方法的流程图;
图2为实施例中超网络的结构示意图;图3为实施例中应用于新的客户端的联邦学习泛化方法的流程图;图4为实施例中已有客户端的参数更新过程的流程图;图5为实施例中电子设备的结构示意图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。
[0020]需要说明的是,在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
[0021]本领域内的技术人员应明白,本专利技术的实施例可提供为方法、系统、或计算机程序产品。因此,本专利技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本专利技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD

ROM、光学存储器等)上实施的计算机程序产品的形式。
[0022]本专利技术是参照根据本专利技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的个性化联邦学习泛化方法,其特征在于,应用于服务端,包括如下步骤:初始化全局模型的共享参数并发送给预先建立连接的至少一个客户端,接收并储存各个客户端经过本地训练后的共享参数以及个性化参数,基于各个客户端的共享参数更新服务端的共享参数,多次执行本步骤直至达到终止条件;将各个已有客户端的个性化参数以及服务端的共享参数发送到未经训练的新客户端,在新客户端利用基于注意力机制的超网络生成个性化参数,并基于新客户端的本地数据训练超网络,完成新客户端超网络个性化参数的本地更新。2.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法,其特征在于,所述的终止条件为通信轮次达到预设值。3.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法,其特征在于,所述的超网络的输入为各个已有客户端的个性化参数,输出为新客户端的个性化参数。4.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法,其特征在于,所述的基于注意力机制的超网络包括:全连接层,用于生成隐向量;多个标准化层以及多个设置在标准化层之间的自注意力层,用于根据隐向量生成新客户端的个性化参数。5.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法,其特征在于,所述的新客户端的共享参数采用服务端的共享参数。6.根据权利要求1所述的一种基于注意力机制的个性化联邦学习泛化方法,其特征在于,还包括如下步骤:接收包括经过参数初始化后新客户端在内的多...

【专利技术属性】
技术研发人员:张璐杨耀
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1