System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于注意力机制的联邦学习方法及系统技术方案_技高网

一种基于注意力机制的联邦学习方法及系统技术方案

技术编号:41152219 阅读:7 留言:0更新日期:2024-04-30 18:18
本发明专利技术公开了一种基于注意力机制的联邦学习方法及系统,该系统包括:m个本地节点k和一全局节点。每一本地节点k用于:将本地数据不重叠地划分为训练数据集和验证数据集;在所述训练数据集上对全局模型f<supgt;(t‑1)</supgt;进行训练,得到本地模型其中,t表示联邦训练的迭代轮次;将本地模型划分为特征映射函数和线性学习器,并基于所述特征映射函数得到所述验证数据集对应的映射数据集后,将所述映射数据集和所述本地模型对应的权重矩阵发送至全局节点;全局节点用于基于各本地节点k的映射数据集和权重矩阵生成全局模型f<supgt;(t)</supgt;后,将所述全局模型f<supgt;(t)</supgt;分发至每一本地节点k。本发明专利技术可以缓解数据异质性带来的性能损失问题。

【技术实现步骤摘要】

本公开涉及联邦学习,尤其涉及一种基于注意力机制的联邦学习方法及系统


技术介绍

1、近年来,机器学习算法越来越多地应用到各行各业当中,对人们的日常生活产生了越来越深远的影响,如计算机视觉、自然语言处理和强化学习等。然而,随着移动设备和物联网等智能终端的大范围普及,以及各种电商、视频平台的不断发展,各领域获取到的数据量迅猛增长,现有的存储能力和计算能力很难支持对机器学习模型进行传统的中心化训练。除此之外,应用机器学习算法需要获取大量用户的数据作为支撑,但是很多数据往往涉及用户的隐私信息,无法直接获取;各国也陆续出台相关法律法规,加强隐私数据保护。

2、为了应对大规模数据训练与隐私保护的问题,mcmahan等人在2016年提出联邦学习方法,它允许多个设备或组织在保护数据隐私的同时协同训练模型。该方法的基本架构由一个中央服务器(server)和k个客户机(client)组成,每个客户机存储自己的本地数据。在联邦学习的训练过程中,每个客户机的本地数据不会与任何第三方进行传输,每个客户机将全局模型(global model)从服务器下载到本地,并在自己的本地数据上训练,然后再将训练后的本地模型(local model)上传到服务器,在服务器端合并为新的全局模型,以上本地训练和服务器端模型合并的过程周期性进行,最终得到训练好的全局模型。

3、联邦学习的训练机制使得不同客户机之间的本地数据是互相不可见的,而每个用户会有自己的使用习惯,这就导致不同客户机的本地数据之间服从的概率分布不同。因此,联邦学习面临着一个数据异质性挑战。这意味着不同设备或组织拥有的数据可能具有不同的分布,这可能会影响联邦学习全局模型的准确率。

4、为了提升联邦学习在异质性数据情况下的学习性能,研究人员提出了多种解决方案。如图1所示,“基于结构增强的异质数据联邦学习方法及相关设备:cn202310884262.8”提供了一种通过本地数据增强训练子网络增强表示的方法,进而通过结构增强降低了数据分布差异带来的性能损失;如图2所示,“一种基于编码对比和分类矫正的联邦学习方法:cn202310167845.9”使用编码器编码不同客户端之间的分布差异,并构建原型对比损失训练不同客户端编码器的以对齐特征映射,进而使用根据全局特征生产仿真特征训练全局分类器以提升全局模型分类精度;如图3所示,论文“scaffold:stochastic controlledaveraging for federated learning”中提出使用常数修正,将梯度下降方向从朝向该客户端的局部最优修正为向全局最优靠近,由此缓解异质性数据环境下各参与端模型局部最优不一致的问题。

5、但“基于结构增强的异质数据联邦学习方法及相关设备:cn202310884262.8”中使用的数据增强、子网络增强等步骤需要额外的大量计算开销,同时没有考虑不同节点对模型贡献程度的差异性。“一种基于编码对比和分类矫正的联邦学习方法:cn202310167845.9”中每次迭代都需要估计数据编码后的特征分布并基于该分布采样后衡量分布差异,引入了大量的额外计算量,同时不同节点的模型组合权重是固定的并非最优权重,影响全局模型的学习性能。论文“scaffold:stochastic controlled averaging for federatedlearning”中不同节点的模型组合权重是经验选取的,不一定适合数据分布,进而影响全局模型的学习性能。综上所述,上述方法仅有本地模型参数可学,而将本地模型汇聚为全局模型的组合参数是固定的,无法根据训练目标建模本地模型的重要程度,进而影响全局模型的学习性能。


技术实现思路

1、针对上述问题,本专利技术提出了一种基于注意力机制的联邦学习方法及系统,能够根据优化目标自适应地更新本地模型的组合权重,动态调整本地模型对全局模型的贡献,进而缓解数据异质性带来的性能损失问题;同时提出了一种双层优化算法,在本地节点优化本地模型参数,在全局节点优化模型组合权重。

2、为达到上述专利技术目的,本专利技术的技术方案包括以下内容。

3、一种基于注意力机制的联邦学习方法,应用于一本地节点k,所述方法包括:

4、将本地数据不重叠地划分为训练数据集和验证数据集;

5、在所述训练数据集上对全局模型f(t-1)进行训练,得到本地模型其中,t表示联邦训练的迭代轮次;

6、将本地模型划分为特征映射函数和线性学习器,并基于所述特征映射函数得到所述验证数据集对应的映射数据集后,将所述映射数据集和所述本地模型对应的权重矩阵发送至全局节点,以使该全局节点基于各本地节点k的映射数据集和权重矩阵生成全局模型f(t)后,令t=t+1,并返回至所述在所述训练数据集上对全局模型f(t-1)进行训练;

7、在达到设定的联邦学习条件后,在全局节点上生成的最终全局模型f。

8、进一步地,所述特征映射函数包括:随机傅里叶特征映射函数、多层神经网络或编码器。

9、进一步地,所述本地模型其中,为假设空间,训练数据集l为损失函数。

10、进一步地,所述全局节点基于各本地节点k的映射数据集和权重矩阵生成全局模型f(t),包括:

11、根据各本地节点k的映射数据集,构建全局验证数据集;

12、基于所述全局验证数据集和本地模型求解使得经验误差最小化的模型组合系数λ,并根据所述使得经验误差最小化的模型组合系数λ,得到每一本地模型对应的权重λk;

13、生成全局模型定义为其中,m表示参与联邦学习的本地节点数量。

14、进一步地,所述模型组合系数其中,全局验证数据集

15、进一步地,所述设定的联邦学习条件包括:全局模型收敛或达到设定的最大联邦学习轮次。

16、一种基于注意力机制的联邦学习方法,应用于全局节点,所述方法包括:

17、接收各本地节点k发送的映射数据集和本地模型其中,所述映射数据集是使用所述本地模型的特征映射函数对本地节点k的验证数据集进行映射得到,所述本地模型是基于本地节点k的训练数据集对全局模型f(t-1)进行训练得到,所述本地节点k的训练数据集和验证数据集是不重叠的数据集,t表示联邦训练的迭代轮次;

18、基于各本地节点k的映射数据集和权重矩阵生成全局模型f(t)后,将全局模型f(t)分发给各本地节点k,以使各本地节点k基于全局模型f(t)生成映射数据集和本地模型

19、令t=t+1,并返回至所述接收各本地节点k发送的映射数据集和本地模型

20、在达到设定的联邦学习条件后,得到最终的全局模型f。

21、一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一所述基于注意力机制的联邦学习方法。

22、一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述本文档来自技高网...

【技术保护点】

1.一种基于注意力机制的联邦学习方法,其特征在于,应用于一本地节点k,所述方法包括:将本地数据不重叠地划分为训练数据集和验证数据集;

2.根据权利要求1所述的方法,其特征在于,所述特征映射函数包括:随机傅里叶特征映射函数、多层神经网络或编码器。

3.根据权利要求1所述的方法,其特征在于,所述本地模型其中,为假设空间,训练数据集l为损失函数。

4.根据权利要求1所述的方法,其特征在于,所述全局节点基于各本地节点k的映射数据集和权重矩阵生成全局模型f(t),包括:

5.根据权利要求4所述的方法,其特征在于,所述模型组合系数其中,全局验证数据集

6.根据权利要求4所述的方法,其特征在于,所述设定的联邦学习条件包括:全局模型收敛或达到设定的最大联邦学习轮次。

7.一种基于注意力机制的联邦学习方法,其特征在于,应用于全局节点,所述方法包括:

8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一所述基于注意力机制的联邦学习方法。

9.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-7中任一所述基于注意力机制的联邦学习方法。

10.一种基于注意力机制的联邦学习系统,其特征在于,所述系统包括:

...

【技术特征摘要】

1.一种基于注意力机制的联邦学习方法,其特征在于,应用于一本地节点k,所述方法包括:将本地数据不重叠地划分为训练数据集和验证数据集;

2.根据权利要求1所述的方法,其特征在于,所述特征映射函数包括:随机傅里叶特征映射函数、多层神经网络或编码器。

3.根据权利要求1所述的方法,其特征在于,所述本地模型其中,为假设空间,训练数据集l为损失函数。

4.根据权利要求1所述的方法,其特征在于,所述全局节点基于各本地节点k的映射数据集和权重矩阵生成全局模型f(t),包括:

5.根据权利要求4所述的方法,其特征在于,所述模型组合系数其中,全局验证数据集

6.根据权利要求...

【专利技术属性】
技术研发人员:李健李骄扬林政刘勇王伟平
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1