基于个性化Transformer的联邦学习模型训练方法及联邦学习系统技术方案

技术编号:36346364 阅读:20 留言:0更新日期:2023-01-14 18:00
本发明专利技术公开了一种基于个性化Transformer的联邦学习系统。本发明专利技术的另一个技术方案是提供了一种基于个性化Transformer的联邦学习模型训练方法。本发明专利技术为每个客户端学习一个独特的自注意力层,而其他层的参数在客户端之间共享。此外,本发明专利技术通过在服务器上训练一个超网络,以生成自注意力层中的投影矩阵,从而获得与客户端相关的查询、键和值。这种超网络有效维护了客户端之间参数共享,同时保持了个性化Transformer的灵活性。因此本发明专利技术大大提升了联邦学习在数据异构环境下的推理预测能力。联邦学习在数据异构环境下的推理预测能力。联邦学习在数据异构环境下的推理预测能力。

【技术实现步骤摘要】
基于个性化Transformer的联邦学习模型训练方法及联邦学习系统


[0001]本专利技术涉及一种基于个性化Transformer的联邦学习模型训练方法及联邦学习系统,属于人工智能领域。

技术介绍

[0002]联邦学习是一种以并行计算为基础的分布式机器学习,其结构由一个服务器和若干客户端组成。每个客户端使用自己的本地数据训练一个模型,并只将训练的模型发送回服务器,服务器将接收到的各模型进行聚合得到一个全局模型,在此过程中不会共享客户端本地数据。通过这种方式,联邦学习克服了数据隐私和通信开销方面的一系列问题。然而当客户端之间存在数据异构和系统异构时,单一的全局模型将难以应对与全局分布截然不同的局部分布情况。因此,能为各客户端提供个性化解决方案的个性化联邦学习作为联邦学习的一种扩展应运而生。
[0003]当前大多数联邦学习框架都基于卷积神经网络,它通常关注输入的高频局部区域,这种模式可能对数据异质性非常敏感。由于使用自注意力提取的特征具有全局性,Transformer往往对非独立同分布的数据和分布偏移更加稳健。基于此,最近的一项工作提出将本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于个性化Transformer的联邦学习系统,包括一个服务器和若干客户端,其特征在于,根据不同的执行任务,每个客户端选择相应的Transformer结构作为本地模型,将客户端i的模型参数θ
i
分解为θ
i
={W
i

i
},其中,W
i
为Transformer中自注意力层的投影矩阵,ξ
i
为Transformer中除自注意力层外其余层的参数;服务器储存有一个超网络以及与每个客户端对应的嵌入向量;在联邦学习的第k个通信轮次中:客户端i从服务器上下载第k

1个通信轮次更新聚合的参数利用位于服务器的超网络生成客户端i的投影矩阵W
i
,其中:为超网络的参数;z
i
为超网络的输入,是客户端i可学习的嵌入向量;客户端i利用本地数据B
i
对初始化后的模型进行本地训练对初始化后的模型进行本地训练其中:为客户端i第k个通信轮次更新后的模型参数;α为学习率;为关于参数θ
i
的梯度算子;表示为l(
·
,
·
)为交叉熵损失函数,f(θ
i

·
)为客户端i的个性化模型,为训练样本的特征,为训练样本的标签;将更新后的模型参数分解为其中,W
ik
为本地模型中自注意力层的投影矩阵,为本地模型中除自注意力层外其余层的参数;将模型参数W
ik
保留在客户端i本地,用于储存客户端i的个性化信息;将参数差ΔW
i
=W
ik

W
ik
‑1和上传到服务器,分别进行参数更新和聚合以获得其他客户端上的有利信息,得到第k个通信轮次的全局参数其中,N为客户端的数量,m
i
为客户端i的本地数据量,M为所有客户端的总体数据量。2.如权利要求1所述的一种基于个性化Transformer的联邦学习系统,其特征在于,对于服务器上的超网络参数以及客户端i的嵌入向量z
i
,通过以下两个式子分别进行更新:,通过以下两个式子分别进行更新:式中,β为学习率,为关于...

【专利技术属性】
技术研发人员:石野李红霞蔡中一汪婧雅
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1