基于DRL的联邦学习节点选择方法技术

技术编号:32224287 阅读:11 留言:0更新日期:2022-02-09 17:29
本发明专利技术公开了基于DRL的联邦学习节点选择方法;包括:根据联邦学习过程,分别构建n个节点对应的联邦学习时间成本模型和节点精度损失成本模型;根据联邦学习时间成本模型和节点精度损失成本模型,构建联邦学习成本最小目标函数;对联邦学习成本最小目标函数进行求解,实现对n个节点的选取;通过该方法能够有效降低联邦学习系统的训练时间,提高聚合模型的精确度。确度。确度。

【技术实现步骤摘要】
基于DRL的联邦学习节点选择方法


[0001]本专利技术属于计算机应用
,特别是基于DRL的联邦学习节点选择方法。

技术介绍

[0002]与传统的以云为中心的机器学习训练方法相比,以联邦学习架构在移动边缘网络进行的模型训练具有四大优点:高效利用网络资源、隐私安全、低延迟、可扩展性高。然而,在大规模复杂的移动边缘网络中,涉及具有不同约束的异构设备。这给大规模实施机器学习带来了通信成本、资源分配以及隐私和安全方面的挑战。首先,即使不再需要向云服务器发送原始数据,但由于参与训练的模型具有高维属性以及通信资源有限,如何降低通信时延,提高通信质量仍然值得关注。其次,部分节点的本地学习时间长、宽带小,且多轮训练之后损失函数会偏离合理范围,如何将这些节点排除,灵活调度使用分布式的计算资源是亟待解决的问题。由此可知,如何进行联邦学习的参与节点的合理选择是解决上述问题的关键。
[0003]专利公布号为CN112668128A的《联邦学习系统中终端设备节点的选择方法及装置》中,从训练准确度和终端设备能耗两个方面衡量联邦学习系统的质量,未考虑终端设备的资源及训练过程的设备能耗等因素,导致联邦学习效率和准确性较差。专利公布号为CN113206887A的《边缘计算下针对数据与设备异构性加速联邦学习的方法》中,通过选择拥有非独立同分布程度较低的数据集的终端设备参与训练,提升模型的准确性,但是降低了非独立同分布的数据影响,适用面比较窄,当满足专利要求的数据相对较少时,很可能出现训练精度急剧下降的情况。专利公布号为CN113128706A的《一种基于标签量信息的联邦学习节点选择方法及系统》中,当控制模型训练的单轮最大耗时,能保证一定的联邦学习的通信效率,但是没有采用深度强化学习等智能技术,每一轮次需要重新全局计算,不能很好的适应动态变化的边缘网络。
[0004]因此,如何基于边缘网络中使用联邦学习架构进行机器学习的场景,提出一种参与节点的智能选择方案,从而降低联邦学习系统的训练时间,提高聚合模型的精确度,成为当前研究的关键问题。

技术实现思路

[0005]鉴于上述问题,本专利技术提供一种至少解决上述部分技术问题的基于深度强化学习(Deep Reinforcement Learning,DRL)的联邦学习节点选择方法,通过该方法能够有效降低联邦学习系统的训练时间,提高聚合模型的精确度。
[0006]本专利技术实施例提供了基于DRL的联邦学习节点选择方法,包括:
[0007]S1、根据联邦学习过程,分别构建n个节点对应的联邦学习时间成本模型和节点精度损失成本模型;
[0008]S2、根据所述联邦学习时间成本模型和节点精度损失成本模型,构建联邦学习成本最小目标函数;
[0009]S3、对所述联邦学习成本最小目标函数进行求解,实现对所述n个节点的选取。
[0010]进一步地,所述联邦学习时间成本模型,包括训练时间成本模型和通信时间成本模型;表示为:
[0011][0012][0013][0014]其中,表示时隙t下节点i的本地学习时间;τ
i
表示节点i的可用计算资源,单位为GFLOPS/KB;d
i
表示节点i承担的计算任务,单位为KB;表示时隙t下节点i的通信时间;表示服务器m覆盖的第i个本地节点的带宽,单位为Mbps;表示训练时隙i之后节点i需要上传服务器的数据大小,单位为KB;表示联邦学习时间成本模型,即时隙t下n个节点耗费时间的平均值。
[0015]进一步地,步骤S1中,所述节点精度损失成本模型,表示为:
[0016][0017]其中,表示时隙t下n个节点对应的精度损失成本;表示时隙t下节点i的精度损失;d
i
=(x
j
,y
j
)表示节点i的训练数据,j表示d
i
的维度;表示时隙t内的聚合模型;L(
·
)表示损失函数。
[0018]进一步地,步骤S2中,所述联邦学习成本最小目标函数,表示为:
[0019][0020][0021]其中,C
t

t
)表示时隙t下联邦学习的总成本;表示时隙t下节点i的选择状态;表示时隙t下节点i被选中参与联邦学习;表示时隙t下节点i未被选中。
[0022]进一步地,所述S3具体包括:
[0023]S31、使用马尔科夫决策过程将所述联邦学习成本最小目标函数转换为奖励函数最大目标函数;
[0024]S32、通过DDPG算法对所述奖励函数最大目标函数进行求解。
[0025]进一步地,步骤S31中,所述奖励函数最大目标函数,表示为:
[0026][0027][0028][0029]其中,公式(12)表示累计奖励;γ∈(0,1]表示奖励折扣因子;T表示总时隙。
[0030]与现有技术人相比,本专利技术记载的基于DRL的联邦学习节点选择方法,具有如下有益效果:
[0031]1.根据联邦学习架构在移动边缘网络中应用所遇到的问题,建立成本模型,设计训练时间和聚合模型精度两个指标衡量联邦学习系统的训练质量,以便于从参与训练的节点中选出合适的节点,从而有效降低联邦学习系统的训练时间,提高聚合模型的精确度。
[0032]2.建立一个DDPG的马尔科夫决策过程形式化描述节点选择过程,将上述指标的组合优化问题转化为奖励函数的最大化问题;大大提高了计算效率。
[0033]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0034]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0035]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0036]图1为本专利技术实施例提供的基于DRL的联邦学习节点选择方法流程图。
[0037]图2为本专利技术实施例提供的联邦学习过程框架图。
[0038]图3为本专利技术实施例提供的DDPG算法框架图。
[0039]图4为本专利技术实施例提供的算法对训练时间的影响结果图。
[0040]图5为本专利技术实施例提供的算法对训练精度的影响结果图。
[0041]图6为本专利技术实施例提供的算法对全局损失的影响结果图。
[0042]图7为本专利技术实施例提供的算法对服务器宽带占用的影响结果图。
具体实施方式
[0043]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0044]参见本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于DRL的联邦学习节点选择方法,其特征在于,包括:S1、根据联邦学习过程,分别构建n个节点对应的联邦学习时间成本模型和节点精度损失成本模型;S2、根据所述联邦学习时间成本模型和节点精度损失成本模型,构建联邦学习成本最小目标函数;S3、对所述联邦学习成本最小目标函数进行求解,实现对所述n个节点的选取。2.如权利要求1所述的基于DRL的联邦学习节点选择方法,其特征在于,步骤S1中,所述联邦学习时间成本模型,包括训练时间成本模型和通信时间成本模型;表示为:联邦学习时间成本模型,包括训练时间成本模型和通信时间成本模型;表示为:联邦学习时间成本模型,包括训练时间成本模型和通信时间成本模型;表示为:其中,表示时隙t下节点i的本地学习时间;τ
i
表示节点i的可用计算资源,单位为GFLOPS/KB;d
i
表示节点i承担的计算任务,单位为KB;表示时隙t下节点i的通信时间;表示服务器m覆盖的第i个本地节点的带宽,单位为Mbps;表示训练时隙t之后节点i需要上传服务器的数据大小,单位为KB;表示联邦学习时间成本模型,即时隙t下n个节点耗费时间的平均值。3.如权利要求1所述的基于DRL的联邦学习节点选择方法,其特征在于,步骤S1中,所述节点精度损失成本模型,表示为:其中,表示时隙t下n个节点对应的精度...

【专利技术属性】
技术研发人员:李晓波马润吴双冯国礼王圣杰哈欣楠马梦轩闫舒怡魏文彬王宁丰田陈丽洁郑媛媛王晓芳孙倩
申请(专利权)人:国网宁夏电力有限公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1