一种基于联邦学习的高效设备选择与资源分配方法组成比例

技术编号:33735124 阅读:50 留言:0更新日期:2022-06-08 21:31
本发明专利技术涉及一种基于联邦学习的高效设备选择与资源分配方法,属于移动通信领域,包括以下步骤:S1:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络参数,并按照学习步骤进行更新,实例化经验回放池;S2:部署体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;S3:在参数更新阶段,协调边缘智能体,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,基于初始经验池中采样的批量经验池中转化多维元组中更新参数;S4:将更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。并获得全局最佳联合决策。并获得全局最佳联合决策。

【技术实现步骤摘要】
一种基于联邦学习的高效设备选择与资源分配方法


[0001]本专利技术属于移动通信领域,涉及一种基于联邦学习的高效设备选择与资源分配方法。

技术介绍

[0002]近年来,许多联邦学习方案成功地运用在移动边缘计算(Mobile Edge Computing,MEC)网络场景中,特别是在工业物联网场景中,应用联邦学习可以在保证数据隐私的前提下有效地提高工业数据的利用率。工业物联网的智能工厂一般位于不同的地理区域,数据分布也存在异构性,为了为所有工厂提供服务,例如异常流量识别,因此需要一个全局检测模型来实现由各个工厂生成的数据的高效性能。然而,传统的两层架构,即云

端架构,由于参数传输过多,数据量集中上传至云端,因此导致了骨干网通信开销过高。
[0003]针对联邦学习过程中通信开销过大的问题,主要的解决思路通常以降低梯度交换通信频率以及降低单轮通信上传总比特数入手,使用降低通信频率的模型优化算法的确可以有效降低联邦学习的通信开销,但同时大大增加了系统算法复杂度,并且由于边缘设备自身计算资源与电量受限,因此这种优化方式局限性较大,不能广泛地应用。
[0004]现有的主要优化方案均集中于通信频率的优化,但实际上并不能在工业环境中广泛应用,因此亟需一种能够合理分配通信资源及设备选择参与的联合算法来解决联邦学习中通信开销过大问题的方法。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于联邦学习的资源分配及边缘协同优化策略方法,通过合理选择设备参与及资源分配来降低联邦学习通信开销。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于联邦学习的高效设备选择与资源分配方法,包括以下步骤:
[0008]S1:初始化参数:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新,另外,一个经验回放池被实例化;
[0009]S2:经验抽样:采用基于经验回放技术的off

policy技术,部署一个具有一定内存容量的体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练。
[0010]S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;
[0011]S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。
[0012]进一步,步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到局部信息,
其所做的决策对其他边缘智能体是不敏感的。
[0013]进一步,在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为

状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。
[0014]进一步,步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:
[0015]S21:每个边缘智能体分别从各自的环境中观察本地状态信息;
[0016]S22:智能体的行动者网络根据本地信息独立地用自己的策略生成决策;
[0017]S23:智能体获得奖励,并且个体环境演化到下一个状态;
[0018]S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。
[0019]进一步,步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;
[0020]每个边缘智能体的行动者

批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。
[0021]进一步,对于边缘智能体m,具体更新步骤如下:
[0022]步骤1)通过最小化损失函数L(φ
m,v
)来独立更新评价批评家网络的参数φ
m,v
,v表示优化因子:
[0023][0024]其中,
[0025][0026]表示为目标Q值,其中和分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(
·
)是返回动作熵值的函数;Υ()是返回状态函数最小值函数;和分别是由评价网络和目标评价网络计算的状态

动作Q值;
[0027]在评价批评家网络和目标批评家网络中分别设置两个参数φ
m,v


m,v
,以缓解政策改进中的正偏置,损耗计算只使用这两个Q值的最小值,从而得到用于更新批评家网络参数的随机梯度:
[0028][0029]其中,表示梯度计算;α
m
为最大熵目标权值;表示智能体m实时策略。
[0030]步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:
[0031][0032]其中,策略函数通过FCNN网络重新参数化表示为其中E()表示期望函数,其中加入一个噪声ε
t
,从而获得一个较低的方差估计,公式(4)重新表示为:
[0033][0034]其中ε
t
服从高斯分布,由此计算出策略的梯度:
[0035][0036]步骤3)采用FCNN来自动设定最大熵目标的权值权值α
m
,α
m
的梯度通过以下目标来计算:
[0037][0038]其中为所有智能体的决策集合,H

为目标熵的值;
[0039]采用软更新方法,从评价批评家的参数φ
m,v
中更新目标批评家网络的参数φ

m,v

[0040]φ

m,v
=τφ
m,v
+(1

τ)φ

m,v
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0041]其中τ∈(0,1)为更新因子。
[0042]进一步,每个边缘智能体的马尔科夫过程定义为一个多元组M=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数;使用权值参数θ
m
来描述边缘智能体m的策略最优策略表示为
[0043]状态空间S表示为其中表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:包括以下步骤:S1:初始化参数:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新,另外,一个经验回放池被实例化;S2:经验抽样:采用基于经验回放技术的off

policy技术,部署一个具有一定内存容量的体验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策。2.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到局部信息,其所做的决策对其他边缘智能体是不敏感的。3.根据权利要求2所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的局部状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为

状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。4.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:S21:每个边缘智能体分别从各自的环境中观察本地状态信息;S22:智能体的行动者网络根据本地信息独立地用自己的策略生成决策;S23:智能体获得奖励,并且个体环境演化到下一个状态;S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。5.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;每个边缘智能体的行动者

批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。6.根据权利要求1所述的一种基于联邦学习的高效设备选择与资源分配方法,其特征在于:对于边缘智能体m,具体更新步骤如下:步骤1)通过最小化损失函数L(φ
m,v
)来独立更新评价批评家网络的参数v表示优化因子:
其中,表示为目标Q值,其中和分别表示所有智能体当前和下一个状态集;m为智能体个数索引,t为迭代轮次索引;log(
·
)是返回动作熵值的函数;Υ()是返回状态函数最小值函数;和分别是由评价网络和目标评价网络计算的状态

动作Q值;在评价批评家网络和目标批评家网络中分别设置两个参数以缓解政策改进中的正偏置,损耗计算只...

【专利技术属性】
技术研发人员:唐伦汪智平蒲昊陈前斌
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1