一种基于响应时间实时均衡的联邦学习高效通信方法技术

技术编号:35742456 阅读:16 留言:0更新日期:2022-11-26 18:46
本发明专利技术涉及一种基于响应时间实时均衡的联邦学习高效通信方法,属于联邦机器学习领域。首先,在预先设定的簇迭代训练中,每个响应的终端设备分别根据自身的本地模型计算时间,均衡的划分至预先设定的计算簇中,构建基于“云服务器

【技术实现步骤摘要】
一种基于响应时间实时均衡的联邦学习高效通信方法


[0001]本专利技术属于联邦机器学习领域,涉及一种基于响应时间实时均衡的联邦学习高效通信方法。

技术介绍

[0002]随着智能边缘设备的普及应用,个性化、低延迟的人工智能应用需求,如人脸识别、智能驾驶、智能监控等不断涌现。传统的机器学习算法(ML,machine learning)通常采用基于云的集中式学习方式,其需要边缘设备将自身所采集和产生的海量原始数据,如图片、视频、位置等数据通过移动网络上传至云服务器,并由云服务器集中完成模型的训练和推理。集中式学习方式虽然可以训练更加准确的人工智能模型,但存在高传输延时、高网络带宽压力以及用户隐私泄露等弊端。为解决这一问题,基于联邦学习(FL,federated learning)的分布式机器学习框架应运而生。
[0003]联邦学习允许多个分布式边缘设备在云服务器的统一协调下,协作完成一个全局模型的训练,而无需传输自身所采集的原始数据。在标准的联邦学习训练过程中,每个边缘设备会先从云服务器下载当前最新的全局模型,然后利用自身所采集的原始数据在本地完成局部模型训练。在每轮通信迭代前,将局部模型更新发送至云服务器,云服务器聚合各个终端发送的局部更新,得到更新的全局模型。最后,不断重复这一过程,直至全局模型收敛。与直接传输原始数据的集中式学习方法相比,FL选择上传训练后的被本地模型更新,能有效地降低对云端的网络带宽压力,同时保护用户的隐私。
[0004]然而,由于联邦学习环境中终端设备资源或者数据异构,Straggle问题一直是制约联邦学习高效通信的一个重要瓶颈。具体的,联邦学习系统通常包含大量的异构设备,这些设备具有不同的计算能力或者通信带宽,且数据异构,不同设备对于云服务器具有不同的响应速度(主要指单次通信迭代,云服务器下发训练任务直至收到终端设备响应的时间)。因此,在传统的同步通信模式中,每轮通信迭代云服务器都必须等待响应速度最慢的终端设备传输本地模型更新来完成全局模型的聚集,这就极大的延长了联邦学习的模型训练时间,从而造成了严重的通信开销。目前,为解决Straggle问题,研究学者对其进行了大量研究,其主要包括两类:一类是基于客户端选择的方法,另一类是基于异步通信的方法。基于客户端选择的方法主要是通过仅仅选择一部分响应时间快的设备而忽略响应慢的设备来参与全局模型的聚合,加快模型的收敛速度,从而减少全局模型训练的等待时间。基于异步通信的方法则是要求云服务器在每轮通信迭代,无需等待响应最慢的设备,而在收到一个或多个终端的本地更新后就聚合全局模型,来减少云服务器的训练等待时间,从而提高联邦学习的通信效率。
[0005]以上两类方法虽然已被证明能在一定程度上减少了模型训练的等待时间,提高了联邦学习的通信效率。但是,这些研究从本质上来说都是通过增加响应快的设备与云服务器的交互频率,而忽略了响应慢的本地模型更新。然而,响应慢的设备通常是一些重要的本地模型更新,从而,这些方法通常会造成训练模型准确率的降低,同时,也会造成联邦学习
的不均衡计算,与标准的联邦学习初衷相违背。因此,如何减少联邦学习通信等待延时,均衡的聚合终端设备传输的本地模型更新,同时提高训练模型的性能是联邦学习通信效率问题中需要深入研究的开放性问题。
[0006]事实上,终端设备计算能力异构是影响联邦学习通信等待的最重要因素。在联邦学习场景中,终端设备通常具有不同的计算能力,且计算能力是决定模型训练时间最重要的因素。即使是规模较小的本地数据,计算能力弱的设备通常也需要较长的训练时间。因此,计算能力异构可能是导致联邦学习通信等待的本质原因。如果我们能够从本质上调节设备的计算资源异构性,减少云服务器的通信等待延时时间;同时,从根本上调节设备的全局模型聚合频率,提高低响应设备的模型训练参与度,那么,在减少模型训练等待延时的同时会提高训练模型的准确率。
[0007]综上所述,为弥补传统集中式机器学习模型训练所引起的高传输延时、高网络带宽压力以及用户隐私泄露等弊端,基于的分布式机器学习框架应运而生。然而,由于联邦学习环境中终端设备资源或者数据异构,Straggle问题一直是制约联邦学习高效通信的一个重要瓶颈。为解决这一问题,现有的基于客户端选择或者基于异步通信的方法,通过忽略或者降低低响应设备的模型训练参与度的方式,减少了模型训练的等待延时,从一定程度上解决了Straggle问题。但是,这些研究增加了高响应设备与云中心的交互频率,而忽略了低响应且重要的本地模型更新,这不仅会造成联邦学习的不均衡计算,同时也会造成训练模型性能的严重降低。而终端设备计算资源异构可能是引起Straggle问题的本质原因,因此,为更高效的联邦学习通信,需充分地对设备的计算资源异构性进行合理调节,减少由计算资源异构所引起的通信等待延时时间。同时,需要从根本上调节设备的全局模型聚合频率,提高低响应设备的模型训练参与度,提高训练模型的精确度。
[0008]基于上述背景,本专利技术提出了一种简单易实现的基于响应时间实时均衡的联邦学习高效通信方法及系统,为联邦学习高通信等待延时问题的解决奠定基础。

技术实现思路

[0009]有鉴于此,本专利技术的目的在于提供一种基于响应时间实时均衡的联邦学习高效通信方法。首先,在预先设定的簇迭代训练中,每个响应的终端设备分别根据自身的本地模型计算时间,均衡的划分至预先设定的计算簇中,使得每个计算簇在每轮簇迭代训练的模型训练时间均衡,从而间接减少簇间的通信等待延时时间。随后,在每个计算簇中选择一个计算资源最多的设备作为簇的Head节点,构建基于“云服务器

Head节点

终端设备”一体的分层通信架构,从通信结构上间接增加了低响应设备的模型训练参与度。然后,在每轮簇迭代训练中,设计加权协作的训练机制,使得响应快的设备能够帮助响应慢的设备进行训练,加快了簇内模型训练速度,减少了簇内训练的通信等待延时时间。同时,为响应慢的设备设置更高的模型更新权重,进一步的增加了低响应设备的模型训练参与度,提高了训练模型的准确率。本专利技术通过对异构的计算设备进行动态逻辑分组,构建基于“云服务器

Head节点

终端设备”一体的动态分层通信架构,减少了由于设备计算资源异构所引起的通信等待延时,并从通信结构和簇内模型聚集更新操作上,间接增加了低响应设备的簇间和簇内模型训练参与度,提高了训练模型的准确率。
[0010]为达到上述目的,本专利技术提供如下技术方案:
[0011]一种基于响应时间实时均衡的联邦学习高效通信方法,该方法包括以下步骤:
[0012]S1:初始化,定义为设备集合,N为设备个数,和分别为所有设备所采集的本地隐私数据和计算能力集合,和分别为簇以及簇的Head节点集合,M为簇个数,云服务器初始化全局模型ω0,全局模型训练轮数T,簇内模型训练轮数H;
[0013]S2:动态分层通信架构构建,根据给定的设备计算能力以及设备的数据集合动态的将终端设备划分至给定的计算簇中,使得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于响应时间实时均衡的联邦学习高效通信方法,其特征在于:该方法包括以下步骤:S1:初始化,定义为设备集合,N为设备个数,和分别为所有设备所采集的本地隐私数据和计算能力集合,和分别为簇以及簇的Head节点集合,M为簇个数,云服务器初始化全局模型ω0,全局模型训练轮数T,簇内模型训练轮数H;S2:动态分层通信架构构建,根据给定的设备计算能力以及设备的数据集合动态的将终端设备划分至给定的计算簇中,使得每个计算簇在当前迭代轮次h∈H的簇模型训练时间均衡,并构建基于“云服务器

Head节点

终端设备”的动态分层通信架构;S3:簇内加权协作训练,每个簇的Head的节点分别进行簇内加权协作训练,得到每个簇在当前迭代轮次h∈H的簇内模型更新S4:簇间模型聚集,每个计算簇的Head节点分别将获得的簇模型更新上传至云服务器,云服务器对上传的簇模型更新进行聚集操作,得到下一轮迭代的全局模型ω
t+1
;S5:全局模型分发,云服务器将更新的全局模型ω
t+1
下发给所有计算设备,模型训练进入下一轮迭代。2.根据权利要求1所述的一种基于响应时间实时均衡的联邦学习高效通信方法,其特征在于:所述S2具体包括以下步骤:S2

1:所有终端设备从云服务器获取迭代轮次t∈T的全局模型ω
t
(t=0,1,2,...,T);S2

2:所有终端设备根据各自的本地隐私数据以及全局模型ω
t
并行地进行本地模型训练,对于设备有如下计算公式:其中,e∈E为终端设备的本地模型训练轮次,和为终端设备在本地迭代轮次e和e

1的本地模型更新,b∈B为训练块大小,η和分别为学习率和梯度函数;S2

3:记簇内迭代训练轮次h∈H,得到经过E轮本地模型训练的终端设备集合为S且S中每个设备的本地模型更新为则分别预测评估将设备划分至每个簇的簇模型训练时间对于设备有如下计算公式:S2

4:将设备分配至使得簇间训练时间差异最小的簇中,对于簇有如
下计算公式:S2

5:更新每个簇的簇模型训练时间重复S2

3至S2

5,直至集合S中所有设备划分完成为止,得到当前迭代轮数h∈H的一次簇划分结果;S2

6,在每个簇中,选择一个计算能力最强的设备作为簇的Head节点,并构建基于“云服务器

Head节点

终端设备”一体的逻辑分层架构。3.根据权利要求2所述的一种基于响应时间实时均衡的联邦学习高效通信方法,其特征在于:所述S3具体包括以下步骤:S3

1:分别统计每个设备直至迭代轮次h∈H,训练得到本地模型更新的总频次S3

2:分别计算每个设备在当前迭代轮次h∈H的簇内模型聚集权重其计算公式如下:S3

3:计算每个簇在当前迭代轮次h∈H的簇内模型更新,对于簇其计算公式如下:其中,表示簇在簇内迭代轮次(h

1)的簇模型更新;不断重复S2~S3,直至每个簇迭代训练H轮为止,得到经过H轮迭代训练的簇模型更新4.根据权利要求3所述的一种基于响应时间实时均衡的联邦学习高效通信方法,其特征在于:所述S4具体包括以下步骤:S4

1,每个计算簇的Head节点将训练得到的簇模型更新传输至云服务器;S4

2,云服务器对所有上传的簇模型更新进行聚集操作,并得到下一轮迭代的全局模型ω
t+1
,其计算公式如下:其中,ω
t
为第t轮迭代的全局模型。5.根据权利要求4所述的一种基于响应时间实时均衡的联邦学习高效通信方法,其特征在于:所述S5具体包括以下步骤:
S5
‑<...

【专利技术属性】
技术研发人员:李开菊王豪张清华夏英张旭
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1