一种基于多分类和分布式强化学习的卸载决策优化方法技术

技术编号:31800828 阅读:21 留言:0更新日期:2022-01-08 11:01
本发明专利技术涉及一种基于多分类和分布式强化学习的卸载决策优化方法,包括:步骤1基于智能巡检集群的边缘系统模型获取参数信息,并采集若干不同时间段产生的任务信息和距离信息,步骤2计算任务处理时延和能耗,步骤3构建多分类和分布式强化学习的神经网络和设置网络超参数,步骤4将步骤获取的任务信息和距离信息输入到神经网络进行训练,训练包括候选卸载决策动作生成阶段和资源分配阶段。本发明专利技术的方法能够更大概率更快速度获得最佳卸载决策的优势,降低系统卸载所需的时延和能耗的加权和,达到保证智能巡检集群有效运行时间和保障监控功能的目的,实现最小化系统能耗和加权和的目的,同时普适性更好。同时普适性更好。同时普适性更好。

【技术实现步骤摘要】
一种基于多分类和分布式强化学习的卸载决策优化方法


[0001]本专利技术涉及智能巡检集群边缘计算的计算卸载领域,尤其涉及一种基于多分类和分布式强化学习的卸载决策优化方法。

技术介绍

[0002]人类的生产生活与天气预报、电网、通信网络密切相关。气象预报的准确性,电网和通信网络的安全稳定运行,始终依赖于各类气象观测设施、电力设施和网络设施的正常运行。但是由于各种设施所处环境的复杂性和动态性(害虫追踪)以及监测对象的多样性(设施监测和生物监测),简单的引入固定传感器和摄像机可能无法完全满足监测需求。因此,对设备进行长期有效的动态监测是保持其连续运行的重要手段。智能巡检集群是移动全方位监控的有效方案之一,其通过使用多种低成本移动设备(如轻型无人机、智能汽车)构建统一控制、高效协作的动态巡检群保障大型设施正常运行。集群内节点之间动态协作,相互配合完成监控任务,将监控数据传输到云端,处理后将结果返回到控制中心。最后,控制中心将根据数据处理的结果决定是否对设施采取维修措施。
[0003]但是智能巡检集群也存在一定的局限。检测设备(无人机、智能汽车等)由于机动性强、体积小、生产成本低等严格限制,在电池寿命和计算能力方面仍存在缺陷。同时,随着硬件和互联网技术的发展,检测设备(如无人机、智能汽车等)采集的数据类型多样化,数据处理和存储能力也有所增强。
[0004]以云计算为核心的传统数据处理模式在满足传输时延、能耗和数据安全等方面缺陷明显。移动边缘计算技术是平衡智能巡检集群用户体验质量和计算能力的一种有效措施,通过算法,将计算任务传输到边缘设备进行处理,节省设备能耗和任务处理时延,使集群计算能力得到充分利用的同时保障了集群的正常运转。
[0005]计算卸载主要包含以下两个问题:卸载决策问题和资源分配问题.卸载决策是指用户决定是否卸载、卸载多少以及卸载什么.卸载决策结果分为本地执行(不卸载)、部分卸载和全部卸载.卸载决策的具体结果由用户的能量消耗和完成计算的任务时延决定.卸载决策目标主要分为降低时延、降低能耗以及权衡时延和能耗三个方面.资源分配是指用户终端应该将决定卸载的计算任务分配到一个或多个边缘服务器执行。
[0006]目前,计算卸载作为移动边缘计算的关键技术,计算卸载已有很多相关的研究成果。例如具有代表性的方法有粒子群优化算法,模拟退火算法,深度强化学习方法等。以上方法为边缘计算在用户任务数量

用户数量

边缘服务器数量方面局限于一个或两个因素数量为一的系统模型中计算卸载的实现提供了坚实的理论基础,并且实验结果表明了方法的有效性。但是针对类似基于智能巡检集群的多任务

多用户

多边缘服务器的系统模型的计算卸载研究工作却很少。而对于智能巡检集群而言,集群内所有设备均通过簇头设备集中统一管控,较一般的使用的移动终端独立工作模式区别明显。因此,针对一定区域中,多个边缘服务器位置固定场景中,智能巡检集群位置不断的变化的同时影响设备与服务器之间网络连接的情况下,为了适应集群移动的网络参数随机变化,寻求如何用最小的时延和
能耗代价,在一定时间内,完成在该时间段内所有设备产生全部任务的卸载决策显得尤为重要。

技术实现思路

[0007]针对现有技术之不足,一种基于多分类和分布式强化学习的卸载决策优化方法,所述方法包括:
[0008]步骤1:基于一个智能巡检集群的边缘系统模型,首先获取所述模型内智能巡检设备和边缘设备的参数信息和网络参数信息,然后采集若干不同时间段t内所述智能巡检设备产生的任务信息以及所述智能巡检设备与所述边缘设备之间的距离信息,并对采集到的信息进行预处理;
[0009]步骤2:计算所述边缘系统完成时间段t内的任务处理时延和能耗,分别包括本地计算和边缘计算,具体如下:
[0010]本地计算的时延计算方法是某个任务i的CPU工作负载除以计算任务i的所述智能巡检设备n的CPU频率;
[0011]本地计算的能耗计算的数学表达式是其中是智能巡检设备的有效开关电容。
[0012]边缘计算时延和能耗的计算方式分为两部分,一部分是智能巡检设备传输任务数据到边缘设备所产生的时延和能耗,另一部分是边缘设备处理任务所产生的时延和能耗;
[0013]对每个时间段t内,智能巡检集群的边缘系统内所有的智能巡检设备产生的任务并行执行,即t时间段内同时处理该时间段产生的所有任务,因此所述系统的时延取所有任务中处理时延最大的值,而能耗取处理所有任务能耗的总和;
[0014]步骤3:构建分布式强化学习神经网络结构,基于多分类和分布式思想,所述网络结构包括多个深度学习神经网络DNN,配置所述神经网络DNN的个数K,所述神经网络的输入层、输出层和隐藏层的神经元个数,确定神经网络的超参数。
[0015]步骤4:训练构建好的分布式强化学习神经网络,具体包括两个阶段,候选卸载决策动作生成阶段和资源分配阶段,具体包括:
[0016]步骤41:候选卸载决策动作生成阶段,具体为将步骤1获取的所述任务信息和距离信息分别作为K个DNN的输入进行前向传播获得输出结果,生成设定时间段t内所有任务的候选卸载决策动作,计算所有候选卸载决策动作的时延和能耗的加权和,选出两者加权和最小的候选动作;
[0017]步骤42:资源分配阶段,将任务信息、距离信息以及任务的卸载决策存入共享内存,具体包括:
[0018]步骤421:计算每个候选卸载决策动作是否满足目标问题的约束条件∑
i∈I
x
niw
(t)f
n
(t)≤f
n,max
和∑
ni∈NI
x
niw
(t)f
nw
(t)≤f
w,max
;如果不满足,则舍弃该候选动作,然后从剩余的候选卸载决策动作中选择奖励函数re(t)值最大的方案;
[0019]步骤422:在此之后,奖励函数re(t)最大对应的卸载决策以及输入信息组成元组((R
ni
(t),Dis
ni
(t),∑
w∈W
x
niw
(t)))存储在一个共享内存中;
[0020]步骤423:对于K个DNN,每隔固定数量的时间段t之后,每个DNN分别从所述共享内
存中随机采样进行学习,获取部分任务信息、距离信息和候选卸载决策动作信息对DNN进行训练,通过采用优化器和最小化交叉熵损失函数进行神经网络的参数θ
k
更新,使更新后的参数θ
k
让目标函数不断逼近全局最小;
[0021]步骤5:每个神经网络经过一定episode的训练之后,损失函数趋于平稳,停止训练,固定此时的参数θ
k
,此时输入选择时间段t+1内的任务信息和距离信息即可获得该选择时间段内所有任务最佳的卸载决策,实现最小化系统能耗和加权和的目的。
[0022]根据一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多分类和分布式强化学习的卸载决策优化方法,其特征在于,所述优化方法包括:步骤1:基于一个智能巡检集群的边缘系统模型,首先获取所述模型内智能巡检设备和边缘设备的参数信息和网络参数信息,然后采集若干不同时间段t内所述智能巡检设备产生的任务信息以及所述智能巡检设备与所述边缘设备之间的距离信息,并对采集到的信息进行预处理;步骤2:计算所述边缘系统完成时间段t内的任务处理时延和能耗,分别包括本地计算和边缘计算,具体如下:本地计算的时延计算方法是某个任务i的CPU工作负载除以计算任务i的所述智能巡检设备n的CPU频率;本地计算的能耗计算的数学表达式是其中是智能巡检设备的有效开关电容;边缘计算时延和能耗的计算方式分为两部分,一部分是智能巡检设备传输任务数据到边缘设备所产生的时延和能耗,另一部分是边缘设备处理任务所产生的时延和能耗;对每个时间段t内,智能巡检集群的边缘系统内所有的智能巡检设备产生的任务并行执行,即t时间段内同时处理该时间段产生的所有任务,因此所述系统的时延取所有任务中处理时延最大的值,而能耗取处理所有任务能耗的总和;步骤3:构建分布式强化学习神经网络结构,基于多分类和分布式思想,所述网络结构包括多个深度学习神经网络DNN,配置所述神经网络DNN的个数K,所述神经网络的输入层、输出层和隐藏层的神经元个数,确定神经网络的超参数;步骤4:训练构建好的分布式强化学习神经网络,具体包括两个阶段,候选卸载决策动作生成阶段和资源分配阶段,具体包括:步骤41:候选卸载决策动作生成阶段,具体为将步骤1获取的所述任务信息和距离信息分别作为K个DNN的输入进行前向传播获得输出结果,生成设定时间段t内所有任务的候选卸载决策动作,计算所有候选卸载决策动作的时延和能耗的加权和,选出两者加权和最小的候选动作;步骤42:资源分配阶段,将任务信息、距离信息以及任务的卸载决策存入共享内存,具体包括:步骤421:计算每个候选卸载决策动作是否满足目标问题的约束条件∑
i∈I
x
niw
(t)f
n
(t)≤f
n,max
和∑
ni∈NI
x
niw
(t)f
nw
(t)≤f
w,max
;如果不满足,则舍弃该候选动作,然后从剩余的候选卸载决策动作中选择奖励函数re(t)值最大的方案;步骤422:将奖励函数re(t)最大对应的卸载决策以及...

【专利技术属性】
技术研发人员:吴涛邓宇萍陈曦
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1