一种针对分布式边缘学习中的模型聚合的分组优化方法技术

技术编号:33147411 阅读:29 留言:0更新日期:2022-04-22 13:59
本发明专利技术公开了一种针对分布式边缘学习中的模型聚合的分组优化方法。所述方法包括以下步骤:量化各设备的本地数据分布与全局数据分布的差异;计算设备间点对点传输的最小传输时延;采用启发式的遗传算法编码网络中设备可能的分组方式,并通过遗传操作来自动的搜寻最优的分组结果,确定设备分组后模型分组聚合的方式;将网络中的设备划分为不同的组,并且设备按照获取的分组方式进行分组训练及分组模型聚合。本发明专利技术能够在不提前指定分组数的前提下根据网络中节点的数据分布和节点间的传输时延自动的对网络中的设备进行分组,有效的减缓了在分布式边缘学习中设备间数据分布非独立同分布对全局模型收敛性能的影响,提高全局模型的训练精度和收敛速度。型的训练精度和收敛速度。型的训练精度和收敛速度。

【技术实现步骤摘要】
一种针对分布式边缘学习中的模型聚合的分组优化方法


[0001]本专利技术涉及分布式边缘学习中模型性能优化
,特别涉及一种针对分布式边缘学习中的模型聚合的分组优化方法。

技术介绍

[0002]随着移动计算和物联网设备的激增,大量的设备连接到互联网上并在网络边缘产生了大量的数据。然而,出于隐私和带宽限制将数据从边缘传输至中央训练机器学习模型是不切实际的。因此,将数据驱动的人工智能推向网络边缘从而释放边缘大数据的潜力已是大势所趋。为了满足这一需求,边缘智能作为一种新兴的范式,将人工智能从网络中心推向更接近物联网设备和数据源的网络边缘,已被广泛认为是一种很有前途的解决方案。从本质上说,与传统的基于云的计算范式相比,计算源和信息生成源之间的物理接近性有了一些好处,包括减少延迟、保护隐私、降低带宽消耗等。
[0003]然而,由于单台边缘设备的计算能力和数据存储能力无法满足利用庞大数据训练大型机器学习模型的要求,在边缘环境中使用并行度高的分布式计算机集群来协作学习已变得十分流行。目前大多数分布式机器学习框架为集中式的结构,其中边缘设备使用本地数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种针对分布式边缘学习中的模型聚合的分组优化方法,其特征在于,包括以下步骤:S1、根据各设备在相同的初始全局模型上使用其各自的本地数据集进行多轮训练得到的更新后的梯度与初始全局模型梯度的差异,来表示各设备的本地模型与初始全局模型的差异,从而根据设备的本地模型与初始全局模型的差异来量化各设备的本地数据分布与全局数据分布的差异;S2、根据连接各个设备的网络拓扑信息获取各设备间点对点传输的连接关系和设备链路间的带宽资源,同时结合设备间点对点传输的模型大小,计算设备间点对点传输的最小传输时延;S3、基于设备间点对点传输的最小传输时延以及各设备的本地数据分布与全局数据分布的差异,采用启发式的遗传算法编码网络中设备可能的分组方式,并通过遗传操作来自动的搜寻最优的分组结果,分组结果包括分组数和每组包括的成员设备,从而确定设备分组后模型分组聚合的方式;S4、根据步骤S3中所确定的模型分组聚合的方式将网络中的设备划分为不同的组,并且设备按照获取的分组方式进行分组训练及分组模型聚合。2.根据权利要求1所述的一种针对分布式边缘学习中的模型聚合的分组优化方法,其特征在于,每个设备都拥有多个数据样本,多个数据样本构成各个设备的本地数据集;并且每个设备在其本地数据集上进行基于梯度下降的模型训练,即可获取基于本地数据集训练得到的本地模型;对于各个设备来说,设备间的数据分布往往是非独立同分布的,即各设备间本地数据分布不一致且不同于全局数据分布;步骤S1中,为表示各设备分布与全局分布的差异,根据各设备在相同的初始全局模型上使用其各自的本地数据集进行多轮训练得到的更新后的梯度与初始全局模型梯度的差异量化设备的本地数据分布和全局数据分布间的差异,具体包括以下步骤:S1.1、随机初始化一个全局模型并将该全局模型作为各设备统一的初始模型;所述全局模型为由本领域技术人员指定的机器学习模型,包括Linear Regression(LR)、Multilayer Perceptrons(MLP)或Convolutional Neural Networks(CNN);S1.2、在去中心化的分布式机器学习的框架下对各个设备进行多轮的本地更新和全局聚合,即各设备使用其完整的本地数据集在初始模型上进行一轮本地模型训练并获取其相应的本地模型后,所有设备按照其数据量对获取的本地模型进行加权平均得到一个全局聚合模型;S1.3、将该全局聚合模型下发给各设备并作为各设备在下一轮本地模型训练的初始模型,返回步骤S1.2;S1.4、步骤S1.2~步骤S1.3的本地模型训练和全局模型聚合的步骤在循环执行多轮后,使用当前获取的全局聚合模型作为度量本地模型与全局模型差异时的初始全局模型;S1.5、在获取初始全局模型之后,各设备使用各自完整的本地数据集在初始全局模型上连续的执行多轮步骤S1.2中的本地模型训练,其中,对于每个本地设备来说,每一个本地模型训练轮都会遍历完所有的本地数据;并且在执行连续多轮的本地模型训练的过程中,各设备不会进行全局模型聚合的操作,即各设备使用其各自设备上的本地数据集对初始全
局模型进行一轮本地模型训练,得到本地模型后,再循环多次对获取的本地模型进行一轮本地模型训练,循环多次得到本地模型,即可获取各设备在其本地数据集上进行本地模型训练得到的本地模型;S1.6、通过模型梯度间的距离度量步骤S1.2~步骤S1.5中获取的初始全局模型的梯度和各设备的本地模型的梯度间的差异,模型梯度间距离的度量指标包括余弦距离、欧氏距离或曼哈顿距离;使用各设备的本地模型梯度与初始全局模型间梯度的差异表示各设备的本地数据分布和全局数据分布间的差异。3.根据权利要求1所述的一种针对分布式边缘学习中的模型聚合的分组优化方法,其特征在于,步骤S2中,所述网络拓扑信息包括参与训练的设备、直连设备的链路以及各设备直连的链路的带宽资源,以参与训练的设备作为节点、以链路作为边以及以链路的带宽资源作为边的权值的形式将网络拓扑以有权无向图的数据结构进行存储。4.根据权利要求3所述的一种针对分布式边缘学习中的模型聚合的分组优化方法,其特征在于,步骤S2包括以下步骤:S2.1、通过广度优先搜索方法和深度优先搜索方法,根据网络拓扑结构以及各设备直连的链路的带宽资源首先计算得出使得设备间点对点传输带宽最大的传输路径,设备间点对点的传输路径由至少一条直连设备的链路构成;S2.2、根据设备间点对点的传输路径上的带宽资源相加得到设备间点对点的传输路径可用的带宽资源,并根据该带宽资源和设备间点对点传输的模型的大小,即可通过将设备间点对点传输的模型大小除以设备间点对点传输路径可用的带宽资源得到设备间点对点传输的最小传输时延;设备间点对点传输的模型的大小指模型的非0参数数量。5.根据权利要求1所述的一种针对分布式边缘学习中的模型聚合的组优化方法,其特征在于,步骤S3中,使用启发式遗传算法在不提前指定分组数的前提下根据网络中各设备的本地数据分布与全局数据分布的差异,以及设备间点对点传输的最小传输时延自动地搜索最优分组结果作为设备分组训练和聚合的方式,具体包括以下步骤:S3.1、将编码网络中设备可能的分组方式作为遗传算法中个体的表示,并将多种分组方式即不同的个体组合成种群;S3.2、确定评估方式,引入适应度函数来评判种群中每种分组方式(个体)的优良程度;S3.3、确定种群中个体的选择方式,根据种群中各个个体评估的适应度数值从种群中选择适应度数值最高的个体直接加入下一代种群中参与下一轮迭代,其他个体进入下一代的概率为由个体适应度与群体适应度之比决定,群体适应度是所有个体适应度之和;S3.4、确定交叉和变异的遗传操作,从...

【专利技术属性】
技术研发人员:杨磊何紫琦
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1