一种基于联邦学习的微网群请求动态迁移调度方法及装置制造方法及图纸

技术编号:34636880 阅读:12 留言:0更新日期:2022-08-24 15:10
本发明专利技术公开了一种基于联邦学习的微网群请求动态迁移调度方法及装置,包括:对包括微网群设备和边缘计算设备的微网群系统进行初始化;各个微网群设备利用深度强化学习方法并基于本地历史运行数据对本地学习模型进行训练,并将训练后的模型参数和本地训练次数发送边缘计算设备;边缘计算设备基于本地训练次数对接收到的模型参数进行聚合以更新请求评估模型,并将更新后的请求评估模型发送各微网群设备;微网群设备根据更新后的请求评估模型,在请求调度决策时以最大化长期效益期望为目标预测资源分配策略,资源分配策略包括请求迁移决策和资源单元数量决策。本发明专利技术可以在节省传输开销保证了数据隐私与安全的同时,也还确保了决策的准确高效。保了决策的准确高效。保了决策的准确高效。

【技术实现步骤摘要】
一种基于联邦学习的微网群请求动态迁移调度方法及装置


[0001]本专利技术属于计算机网络
,具体涉及一种基于联邦学习的微网群请求动态迁移调度方法及装置。

技术介绍

[0002]作为单个微网的丰富扩展,微网群由地理位置毗邻的多个微网互相联结而成,它作为一个可以调度的自立的整体,可以实现离网与并网运行,成功解决单个微网存在的抗扰动能力差、工作能力有限等缺点。信息交互、功率传输广泛存在于微网群之间,各微网在不同运行状态下使得集群呈现多样的运行模式。在特点上,微网群能贯穿能源运营、供应、消费等不同环节,并且具备利益主体多元化的特点。面对微网集群复杂的环境,微网群运营主体需要通过部署大量的微网设备来协同控制协调各微网主体的利益。这些分布在微网集群中的各式异构微网设备在给通信网络带来巨大考验的同时,其对网络环境、数据安全隐私保护等也提出了新的挑战。为了应对这些新的挑战,边缘计算技术被引入其中。通过该技术,微网集群设备之间的通信得以更好地协调,并可以将某处微网中的部分请求动态迁移到微网群中的其他微网中。不过,在这样的模式下微网群依旧存在不少问题,如何更好地调度请求以达到对资源的合理利用,并且加强数据隐私安全方面的保护已经成为一个亟待解决的挑战。
[0003]在处理微网群请求调度资源分配问题时,使用凸优化、博弈论等方法存着诸如需要获取全局信息而造成的数据泄露,无法适应复杂高度变化的微网群环境,以及无法综合考虑系统长期利益来综合决策等问题。单纯使用深度强化学习虽然能解决上述不足,但是由于各微网群中微网设备算力不足,只能支撑轻量级的神经网络。当今,随着数据安全和隐私得到了更多人的重视,对数据隐私的保护已经成为一个迫切且重要的问题。传统的分布式训练虽然一定程度上缓和了微网群中微网设备的算力不足问题,但是其需要较为频繁地传输大量数据到其它设备,一方面会对网络环境的质量要求较高,产生大量的传输成本,一方面在训练时间上不尽人意,同时也会导致数据隐私的泄露等问题的发生。因此,如何在微网群中微网设备算力受限的基础上高效地利用数据,减少传输成本且同时保障数据隐私与安全是目前处理微网群请求调度资源分配问题的重要挑战。

技术实现思路

[0004]针对以上问题,本专利技术提出了一种基于联邦学习的微网群请求动态迁移调度方法及装置,通过在基于边缘计算的微群网场景中应用联邦学习的分布式训练方法指导微网群系统各个微网设备上的深度强化学习代理,实现在保护数据隐私的同时动态迁移调度微网群场景下的请求,解决了传统方法带来巨大的流量负载压力、较高的传输时延、数据隐私泄露等问题。为解决以上技术问题,本专利技术所采用的技术方案如下:
[0005]一种基于联邦学习的微网群请求动态迁移调度方法,包括如下步骤:
[0006]S1,对边缘计算支持下的微网群系统进行初始化,所述微网群系统包括微网群设
备和边缘计算设备的微网群系统;
[0007]S2,各个微网群设备利用深度强化学习方法并基于本地历史运行数据对本地学习模型进行训练,并将训练后的本地学习模型参数和本地训练次数上传到边缘计算设备n


[0008]S3,边缘计算设备基于本地训练次数对接收到的本地学习模型参数进行聚合以更新请求评估模型,并将更新后的请求评估模型分发各微网群设备;
[0009]S4,微网群设备根据更新后的请求评估模型,在请求调度决策时以最大化长期效益期望为目标预测资源分配策略,所述资源分配策略包括请求迁移决策和资源单元数量决策;
[0010]S5,当微网群设备数量变化时,边缘计算设备n

对请求评估模型的模型参数进行更新。
[0011]所述步骤S2包括如下步骤:
[0012]S2.1,各微网群设备取出各自记忆存储单元中的本地历史运行数据;
[0013]所述本地历史运行数据的表达式为:
[0014](s,a,r,s

);
[0015]式中,s表示当前环境下的状态观测值,包括边缘计算设备n

的请求处理队列的当前队列长度、边缘计算设备n

的资源序列中的剩余资源单元、当前请求所需的CPU频率、自身网络连接状态,a表示动作,也即请求迁移决策和资源单元数量决策,r表示执行动作a后的奖励,s

表示新环境下的状态观测值;
[0016]S2.2,使用均方差定义损失函数,损失函数的公式为:
[0017]L(w)=E[(R+γ
·
max
a

Q(s

,a

,w

)

Q(s,a,w))2];
[0018]式中,L(w)表示损失函数,R表示回报,也即奖励r的衰减累加,γ表示衰减系数,Q(s,a,w)表示训练所用的参数w的神经网络预测的Q值,max
a

Q(s

,a

,w

)表示神经网络参数更新为w

时的状态s的下一状态s

基于动作a

的最大Q值
[0019]S2.3,微网群设备利用DQN算法进行本地学习模型的训练,同时使用梯度下降法更新神经网络的参数w以获得最佳Q值;
[0020]S2.4,微网群设备将更新后的本地学习模型的参数以及本地训练的次数上传至边缘计算设备n


[0021]所述步骤S3包括如下步骤:
[0022]S3.1,边缘计算设备n

对每个微网群设备的本地训练次数分别进行统计;
[0023]S3.2,边缘计算设备n

根据统计后的本地训练次数对接收到的模型参数进行聚合;
[0024][0025]式中,α
t+1
表示第t轮聚合后的请求评估模型,表示t轮时微网群设备m在当前t轮周期内训练的次数,H
t
表示M个微网群设备的在当前t轮周期内训练次数的加和,表示第t轮训练后本地学习模型的参数,t表示训练的周期轮数,P
t
表示第t轮聚合时随机抽取的微网群设备的集合;
[0026]S3.3,边缘计算设备n

将步骤S3.2聚合后得到的请求评估模型分发给各微网群设备。
[0027]在步骤S4中,所述最大化长期效益期望的表达式为:
[0028][0029]式中,表示最大化长期效益期望,I表示时间片的总数,g(
·
)表示i时间片下的直接效用,V1表示初始网络状态变量,V表示初始网络状态的值,Φ(Vi)表示网络状态V
i
的决策函数,表示网络状态的集合;
[0030]所述网络状态V
i
的表达式为:
[0031][0032][0033]式中,表示i时间片下的请求处理队列,表示i时间片下的资源序列,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦学习的微网群请求动态迁移调度方法,其特征在于,包括如下步骤:S1,对边缘计算支持下的微网群系统进行初始化,所述微网群系统包括微网群设备和边缘计算设备;S2,各个微网群设备利用深度强化学习方法并基于本地历史运行数据对本地学习模型进行训练,并将训练后的本地学习模型参数和本地训练次数上传到边缘计算设备n

;S3,边缘计算设备n

基于本地训练次数对接收到的本地学习模型参数进行聚合更新请求评估模型,并将更新后的请求评估模型分发各微网群设备;S4,微网群设备根据更新后的请求评估模型,在请求调度决策时以最大化长期效益期望为目标预测资源分配策略,所述资源分配策略包括请求迁移决策和资源单元数量决策;S5,当微网群设备数量变化时,边缘计算设备n

对请求评估模型的模型参数进行更新。2.根据权利要求1所述的基于联邦学习的微网群请求动态迁移调度方法,其特征在于,所述步骤S2包括如下步骤:S2.1,各微网群设备取出各自记忆存储单元中的本地历史运行数据;所述本地历史运行数据的表达式为:(s,a,r,s

);式中,s表示当前环境下的状态观测值,包括边缘计算设备n

的请求处理队列的当前队列长度、边缘计算设备n

的资源序列中的剩余资源单元、当前请求所需的CPU频率、自身网络连接状态,a表示动作,也即请求迁移决策和资源单元数量决策,r表示执行动作a后的奖励,s

表示新环境下的状态观测值;S2.2,使用均方差定义损失函数,损失函数的公式为:L(w)=E[(R+γ
·
max
a

Q(s

,a

,w

)

Q(s,a,w))2];式中,L(w)表示损失函数,R表示回报,也即奖励r的衰减累加,γ表示衰减系数,Q(s,a,w)表示训练所用的参数w的神经网络预测的Q值,max
a

Q(s

,a

,w

)表示神经网络参数更新为w

时的状态s的下一状态s

基于动作a

的最大Q值;S2.3,微网群设备利用DQN算法进行本地学习模型的训练,同时使用梯度下降法更新神经网络的参数w以获得最佳Q值;S2.4,微网群设备将更新后的本地学习模型的参数以及本地训练的次数上传至边缘计算设备n

。3.根据权利要求1所述的微网群请求动态迁移调度方法,其特征在于,所述步骤S3包括如下步骤:S3.1,边缘计算设备n

对每个微网群设备的本地训练次数分别进行统计;S3.2,边缘计算设备n

根据统计后本地训练次数对接收到的模型参数进行聚合;式中,α
t+1
表示第t轮聚合后的请求评估模型,表示t轮时微网群设备m在当前t轮周期内训练的次数,H
t
表示M个微网群设备在当前t轮周期内训练次数的加和,表示第t轮训练后微网群设备m的本地学习模型的参数,t表示训练的周期轮数,P
t
表示第t轮聚合时随机抽取的微网群设备的集合;S3.3,边缘计算设备n

将步骤S3.2聚合后得到的请求评估模型分发给各微网群设备。
4.根据权利要求1所述的基于联邦学习的微网群请求动态迁移调度方法,其特征在于,在步骤S4中,所述最大化长期效益期...

【专利技术属性】
技术研发人员:王晓飞冯一诚王新迎陈盛武国良祖光鑫
申请(专利权)人:中国电力科学研究院有限公司国网黑龙江省电力有限公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1