一种基于深度强化学习的边缘物联网代理资源分配方法组成比例

技术编号:37135598 阅读:12 留言:0更新日期:2023-04-06 21:34
本发明专利技术公开了一种基于深度强化学习的边缘物联网代理资源分配方法,涉及物联网技术领域,该方法包括:首先由终端设备x收集环境中的数据,并将所述数据传输至深度强化学习网络模型,然后根据所述数据,由深度强化学习网络模型得到最优分配策略,最后根据所述最优分配策略,将所述数据发送至边缘节点e进行计算,实现边缘物联网代理资源分配;本发明专利技术,解决了边缘物联网代理资源分配时间长、性能有限以及现有技术不足以支持复杂动力物联网的资源优化配置的问题。置的问题。置的问题。

【技术实现步骤摘要】
一种基于深度强化学习的边缘物联网代理资源分配方法


[0001]本专利技术涉及物联网
,具体涉及一种基于深度强化学习的边缘物联网代理资源分配方法。

技术介绍

[0002]本节中的陈述仅提供与本公开相关的背景信息,并且可能不构成现有技术。
[0003]合理的资源配置是高效支持边缘物联网代理的电力业务的重要保障;电力物联网是国家工业互联网的重要组成部分;构建高效、安全、可靠的感知层已成为电力行业的一项重要建设工作;然而,目前电力物联网设备的计算能力有限,不能有效地实现本地大型快速计算的任务;边缘物联网代理作为物联网感知层的核心设备,发挥着连接物联网终端和云端的作用;随着语音、视频、图像等多种数据的接入,以及高频数据的采集和异构数据的存储,如何动态、自适应地将物联网终端的任务部署在合适的边缘物联网代理节点上是现阶段的关键问题。
[0004]目前,边缘物联网代理的关键问题主要体现在两个方面;首先,由于不同边缘的物联网代理之间相互依赖,现有的组合优化方法一般采用近似算法或启发式算法来解决部署方案,不仅需要较长的运行时间,而且性能有限;其次,边缘物联网代理环境中存在多个边缘节点,而边缘服务器的资源容量有限;因此,不同的边缘节点需要通过分布式决策进行合作,实现最优的资源分配,以支持高效、可靠的信息交互。
[0005]多层网络模型的出现为通信网络资源的优化配置提供了新的解决方案;通过多层网络对网络模型进行训练,以达到准确、高效的解决方案;目前,一些研究者已经进行了研究和分析;现有技术中的一种方案为基于卷积神经网络,实现物联网资源的合理分配和边缘设备对终端数据及网络任务的高效交互和协调;另一种方案为利用贝叶斯对Q

learning网络进行优化,实现网络中资源分配的合理化和有序化,以抵御DDoS网络攻击;另外,深度时空残差网络的引入有效支持了工业物联网网络的有效负载平衡,保证了网络实现低延迟、高可靠的数据交互;考虑到网络设备的异质性,现有技术多采用深度学习网络对网络服务器和用户请求进行有效匹配,为用户设备分配最佳资源量;但需要注意的是,由于深度网络模型的网络结构,在更新和迭代网络状态时容易陷入计算能力和处理问题不匹配的问题,限制了计算效率,不足以支持复杂动力物联网的资源优化配置。

技术实现思路

[0006]本专利技术的目的在于:针对现有技术中的上述不足,提供了一种基于深度强化学习的边缘物联网代理资源分配方法,解决了边缘物联网代理资源分配时间长、性能有限以及现有技术不足以支持复杂动力物联网的资源优化配置的问题。
[0007]本专利技术的技术方案如下:
[0008]一种基于深度强化学习的边缘物联网代理资源分配方法,包括:
[0009]步骤S1:由终端设备x收集环境中的数据,并将所述数据传输至深度强化学习网络
模型;
[0010]步骤S2:根据所述数据,由深度强化学习网络模型得到最优分配策略;
[0011]步骤S3:根据所述最优分配策略,将所述数据发送至边缘节点e进行计算,实现边缘物联网代理资源分配。
[0012]进一步地,所述步骤S1中深度强化学习网络模型的训练方法包括如下步骤:
[0013]步骤S101:初始化所述深度强化学习网络模型的系统状态s;
[0014]步骤S102:初始化所述深度强化学习网络模型的实时ANN和延迟ANN;
[0015]步骤S103:初始化所述深度强化学习网络模型的经验池O;
[0016]步骤S104:根据当前系统状态s
t
,利用ε

greedy策略,选择系统动作a
t

[0017]步骤S105:由环境根据所述系统动作a
t
反馈奖励σ
t+1
和系统下一状态s
t+1

[0018]步骤S106:根据所述当前系统状态s
t
、系统动作a
t
、奖励σ
t+1
和系统下一状态s
t+1
,计算得到状态转换序列Δ
t
,并将状态转换序列Δ
t
存储至经验池O;
[0019]步骤S107:判断经验池O存储量是否达到预设值,若是,从经验池O中抽取N个状态转换序列对实时ANN和延迟ANN进行训练,完成对深度强化学习网络模型的训练;否则,将当前系统状态s
t
更新为系统下一状态s
t+1
,并返回步骤S104。
[0020]进一步地,所述步骤S101中的系统状态s为本地卸载状态,表达式如下:
[0021]s=[F,M,B][0022]其中:
[0023]F为卸货决策向量;
[0024]M为计算资源分配向量;
[0025]B为剩余计算资源向量;B=[b1,b2,b3…
b
d
,

],其中,b
d
为第d个MEC服务器的剩余计算资源,G
d
为总计算资源,为分配给计算资源分配向量M中每个任务的计算资源;
[0026]所述步骤S104中的系统动作a
t
的表达式如下:
[0027]a
t
=[x,μ,k][0028]其中:
[0029]x为终端设备;
[0030]μ为终端设备x的卸货方案;
[0031]k为终端设备x的计算资源分配方案;
[0032]所述步骤S105中的奖励σ
t+1
的计算公式如下:
[0033][0034]其中:
[0035]r为奖励函数;
[0036]A为当前时间t状态下的目标函数值;
[0037]A'为当前系统状态s
t
采取系统动作a
t
后到下一个状态时的目标函数值;
[0038]A”为所有局部卸载下的计算值;
[0039]所述步骤S106中的状态转换序列Δ
t
的表达式如下:
[0040]Δ
t
=(s
t
,a
t

t+1
,s
t+1
)。
[0041]进一步地,所述步骤S107中对实时ANN和延迟ANN的训练方法包括如下步骤:
[0042]步骤S1071:对所述N个状态转换序列,根据状态转换序列得到状态动作对的估计值Q(s
t
,a
t
,θ)和下一状态的值Q(s
t+1
,a
t+1
,θ');
[0043]步骤S1072:根据所述下一状态的值Q(s
t+1
,a
t+1
,θ')和奖励σ
t+1
,计算得到状态动作对的目标值y;
[0044]步骤S1073:根据所述状态动作对的估计值Q(s...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的边缘物联网代理资源分配方法,其特征在于,包括:步骤S1:由终端设备x收集环境中的数据,并将所述数据传输至深度强化学习网络模型;步骤S2:根据所述数据,由深度强化学习网络模型得到最优分配策略;步骤S3:根据所述最优分配策略,将所述数据发送至边缘节点e进行计算,实现边缘物联网代理资源分配。2.根据权利要求1所述的一种基于深度强化学习的边缘物联网代理资源分配方法,其特征在于,所述步骤S1中深度强化学习网络模型的训练方法包括如下步骤:步骤S101:初始化所述深度强化学习网络模型的系统状态s;步骤S102:初始化所述深度强化学习网络模型的实时ANN和延迟ANN;步骤S103:初始化所述深度强化学习网络模型的经验池O;步骤S104:根据当前系统状态s
t
,利用ε

greedy策略,选择系统动作a
t
;步骤S105:由环境根据所述系统动作a
t
反馈奖励σ
t+1
和系统下一状态s
t+1
;步骤S106:根据所述当前系统状态s
t
、系统动作a
t
、奖励σ
t+1
和系统下一状态s
t+1
,计算得到状态转换序列Δ
t
,并将状态转换序列Δ
t
存储至经验池O;步骤S107:判断经验池O存储量是否达到预设值,若是,从经验池O中抽取N个状态转换序列对实时ANN和延迟ANN进行训练,完成对深度强化学习网络模型的训练;否则,将当前系统状态s
t
更新为系统下一状态s
t+1
,并返回步骤S104。3.根据权利要求2所述的一种基于深度强化学习的边缘物联网代理资源分配方法,其特征在于,所述步骤S101中的系统状态s为本地卸载状态,表达式如下:s=[F,M,B]其中:F为卸货决策向量;M为计算资源分配向量;B为剩余计算资源向量;B=[b1,b2,b3…
b
d
,

],其中,b
d
为第d个MEC服务器的剩余计算资源,G
d
为总计算资源,为分配给计算资源分配向量M中每个任务的计算资源;所述步骤S104中的系统动作a
t
的表达式如下:a
t
=[x,μ,k]其中:x为终端设备;μ为终端设备x的卸货方案;k为终端设备x的计算资源分配方案;所述步骤S105中的奖励σ
t+1
的计算公式如下:其中:
r为奖励函数;A为当前时间t状态下的目标函数值;A'为当前系统状态s
t
采取系统动作a
t
后到下一个状态时的目标函数值;A”为所有局部卸载下的计算值;所述步骤S106中的状态转换序列Δ
t
的表达式如下:Δ
t
=(s
t
,a
t

t+1
,s
t+1
)。4.根据权利要求3所述的一种基于深度强化学习的边缘物联网代理资源分配方法,其特征在于,所述步骤S107中对实时ANN和延迟ANN的训练方法包括如下步骤:步骤S1071:对所述N个状态转换序列,根据状态转换序列得到状态动作对的估计值Q(s
t
,a
t
,θ)和下一状态的值Q(s
t+1
,a
t+1
,θ');步骤S1072:根据所述下一状态的值Q(s
t+1
,a
t+1
,θ')和奖励σ
t+1
,计算得到状态动作对的目标值y;步骤S1073:根据所述状态动作对的估计值Q(s
t
,a
t
,θ)和目标值y,计算得到损失函数Loss(θ);步骤S1074:通过损失的反向传播机制调整实时ANN的参数θ,并利用优化器RMSprop减小...

【专利技术属性】
技术研发人员:钟加勇田鹏吕小红吴彬籍勇亮李俊杰宫林何迎春
申请(专利权)人:国网重庆市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1