一种基于DDQN的云边协同的任务卸载方法及系统技术方案

技术编号：41000045 阅读：2 留言：0更新日期：2024-04-18 21:38

本发明专利技术提供了一种基于DDQN的云边协同的任务卸载方法及系统，包括：基于配电网中计算单元、各计算单元的参数信息以及任务卸载策略构建云边协同的任务资源管理模型；基于所述任务资源管理模型中终端的任务、平均开销、计算单元的计算量以及任务卸载策略，将任务卸载策略的优化过程转化为马尔科夫决策过程；采用DDQN算法对马尔科夫决策过程求解得到最优任务卸载网络模型，利用最优任务卸载网络模型生成任务卸载方法；本申请采用DDQN算法对马尔科夫决策过程求解，即利用深度神经网络对网络模型进行训练，具有较强的适应能力和学习能力，便于求解最优的任务卸载网络模型。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及配电网资源管理，具体涉及一种基于ddqn的云边协同的任务卸载方法及系统。

技术介绍

1、移动边缘计算技术将边缘服务器部署到用户终端设备附近，满足了某些计算任务量大、时延要求短的计算任务需求。为了降低移动设备的时延和能量消耗，在移动边缘计算中采用了任务卸载技术。任务卸载技术通过将设备计算任务卸载到边缘节点或云服务器从而解决终端设备计算资源不足的问题。但是，随着配电网中移动设备的数量及其计算任务量快速增长，给终端带来了较大的负担。

2、现有技术中，针对单用户场景，“a cooperative partialcomputationoffloading scheme for mobile edge computingenabled internet of things”的文献中以单用户处理能力最大化为目标，提出了一种二元搜索优化算法；针对多用户设备同时连接移动边缘计算系统的场景，“joint offloadingdecision and resource allocationfor multiuser noma-mecsystems”文献中采用非正交多路访问技术优化计算卸载决策，降低了多用户的计算开销；文献“joint management of wireless andcomputing resourcesfor computation offloading in mobileedge clouds”提出了两种有效的分散算法，实现卸载决策的计算均衡。

3、即现有的研究中为解决边缘计算背景下不同优化

技术实现思路

1、为克服上述现有技术的不足，本专利技术提出一种基于ddqn的云边协同的任务卸载方法，包括：

2、基于配电网中计算单元、各计算单元的参数信息以及任务卸载策略构建云边协同的任务资源管理模型；

3、基于所述任务资源管理模型中终端的任务、平均开销、计算单元的计算量以及任务卸载策略，将任务卸载策略的优化过程转化为马尔科夫决策过程；

4、采用ddqn算法对马尔科夫决策过程求解得到最优任务卸载网络模型，利用最优任务卸载网络模型生成任务卸载方法；

5、所述配电网中的计算单元包括边缘计算系统架构中的终端、边缘服务器和云服务器。

6、可选的，所述任务资源管理模型的构建，包括：

7、基于终端的计算量、计算能耗以及任务的参数信息，结合终端执行效用计算式得到任务在终端的执行效用；

8、基于边缘服务器的计算量、计算能耗、任务的参数信息以及任务由终端传输至边缘服务器的传输参数信息，结合边缘服务器执行效用计算式，得到任务在边缘服务器的执行效用；

9、基于得到任务在边缘服务器的执行效用的方法同理得到任务在云服务器的执行效用；

10、利用任务分别在终端、边缘服务器和云服务器的卸载策略和执行效用，结合终端平均开销计算式，得到终端所有任务的平均开销。

11、可选的，所述终端所有任务的平均开销的计算式为：

12、

13、其中，cost(x)表示终端所有任务的平均开销；n表示边缘计算系统架构中终端的数量；表示第i个终端的任务在终端的卸载策略，取值为0或1；表示第i个终端的任务在终端的执行效用；表示第i个终端的任务在边缘服务器的卸载策略，取值为0或1；表示第i个终端的任务在边缘服务器的执行效用；第i个终端的任务在云服务器的卸载策略，取值为0或1；表示第i个终端的任务在云服务器的执行效用。

14、可选的，所述将任务卸载策略的优化过程转化为马尔科夫决策过程，包括：

15、以终端的任务和各计算单元的计算量作为状态空间；

16、以终端中任务的卸载策略作为动作空间；

17、以所有终端的平均开销的负数作为环境反馈的奖励函数；

18、基于所述状态空间、动作空间和环境反馈的奖励函数构建马尔科夫决策过程。

19、可选的，所述采用ddqn算法对马尔科夫决策过程求解得到最优任务卸载网络模型，包括：

20、基于当前时隙的奖励函数，以及当前时隙以后的时隙的奖励函数对当前时隙卸载策略影响的折扣因子得到当前时隙执行策略的动作价值；所述执行策略是状态空间的状态与动作空间的执行动作之间的对应关系；

21、利用贝尔曼方程得到的当前时隙和下一时隙的动作价值之间的关系，构建任务卸载网络模型；

22、利用任务卸载网络模型和下一时隙的最大动作价值构建目标任务卸载网络模型；

23、基于任务卸载网络模型和目标任务卸载网络模型进行网络训练得到最优任务卸载网络模型。

24、可选的，所述基于任务卸载网络模型和目标任务卸载网络模型进行网络训练得到最优任务卸载网络模型，包括：

25、步骤a，设置任务卸载网络模型的网络参数为ω，目标任务卸载网络模型的网络参数ω'＝ω，迭代次数为m次，设置概率ε值；

26、步骤b，在当前状态下，当输入的随机数小于ε概率时，随机选择执行动作执行，得到新状态和奖励函数，并递减ε值；

27、否则根据当前状态选择最大动作价值对应的执行动作并执行，得到新状态和奖励函数；

28、步骤c，将当前状态、执行动作、新状态和奖励函数作为一个训练样本存入回放经验池；

29、步骤d，从回放经验池中采样并输入目标任务卸载网络模型中计算目标动作价值；

30、步骤e，根据目标动作价值以及样本中的数据，结合均方差损失函数得到新的网络参数，更新任务卸载网络模型的网络参数ω；

31、重复进行步骤b-e，每迭代次，设置目标任务卸载网络模型的网络参数ω'＝ω，迭代m次终止得到最优任务卸载网络模型。

32、可选的，所述目标任务卸载网络模型中目标动作价值的计算式为：

33、

34、其中，q'g表示当前g时隙执行策略的目标动作价值，rg表示当前g时隙的奖励函数；γ表示下一时隙奖励函数对当前执行策略影响的折扣因子；sg+1表示下一时隙的状态；表示基于下一时隙的最大动作价值得到的执行策略对应的动作；ω表示任务卸载网络模型的网络参数；ω'表示网络训练时目标任务卸载网络模型的网络参数；ag+1表示下一时隙的执行动作；表示下一时隙执行策略的目标动作价值。可选的，所述当前时隙执行策略的动作价值的表达式为：

35、qπ(st,at)＝eπ[ut|st＝st,at＝at]

36、其中，qπ(st,at)表示当前t时隙的执行策略π得到的动作价值，执行策略π表示状态st下执行动作at；st表示当前状态的集合，at表示当前本文档来自技高网...

【技术保护点】

1.一种基于DDQN的云边协同的任务卸载方法，其特征在于，包括：

2.如权利要求1所述的一种基于DDQN的云边协同的任务卸载方法，其特征在于，所述任务资源管理模型的构建，包括：

3.如权利要求2所述的一种基于DDQN的云边协同的任务卸载方法，其特征在于，所述终端所有任务的平均开销的计算式为：

4.如权利要求1所述的一种基于DDQN的云边协同的任务卸载方法，其特征在于，所述将任务卸载策略的优化过程转化为马尔科夫决策过程，包括：

5.如权利要求4所述的一种基于DDQN的云边协同的任务卸载方法，其特征在于，所述采用DDQN算法对马尔科夫决策过程求解得到最优任务卸载网络模型，包括：

6.如权利要求5所述的一种基于DDQN的云边协同的任务卸载方法，其特征在于，所述基于任务卸载网络模型和目标任务卸载网络模型进行网络训练得到最优任务卸载网络模型，包括：

7.如权利要求6所述的一种基于DDQN的云边协同的任务卸载方法，其特征在于，所述目标任务卸载网络模型中目标动作价值的计算式为：

8.如权利要求5所述的一种基于D

9.一种基于DDQN的云边协同的任务卸载系统，其特征在于，包括：

10.如权利要求9所述的一种基于DDQN的云边协同的任务卸载系统，其特征在于，所述任务资源管理模型构建模块，具体用于：

...

【技术特征摘要】

1.一种基于ddqn的云边协同的任务卸载方法，其特征在于，包括：

2.如权利要求1所述的一种基于ddqn的云边协同的任务卸载方法，其特征在于，所述任务资源管理模型的构建，包括：

3.如权利要求2所述的一种基于ddqn的云边协同的任务卸载方法，其特征在于，所述终端所有任务的平均开销的计算式为：

4.如权利要求1所述的一种基于ddqn的云边协同的任务卸载方法，其特征在于，所述将任务卸载策略的优化过程转化为马尔科夫决策过程，包括：

5.如权利要求4所述的一种基于ddqn的云边协同的任务卸载方法，其特征在于，所述采用ddqn算法对马尔科夫决策过程求解得到最优任务卸载网络模型，包括：

6....

【专利技术属性】
技术研发人员：李桐，徐长斌，黄文思，杨超，李军，孙峰，王斯诺，赵拴宝，范亚娜，李媛，刘扬，陈得丰，耿洪碧，任帅，陈剑，杨舒钧，刘芮彤，
申请(专利权)人：国网辽宁省电力有限公司电力科学研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人