移动边缘计算中基于Actor-Critic深度强化学习的任务调度方法技术

技术编号：40961021 阅读：2 留言：0更新日期：2024-04-18 20:39

本发明专利技术提供一种移动边缘计算中基于Actor‑Critic深度强化学习的任务调度方法，首先对所提出的移动边缘计算中的任务调度问题进行形式化定义。其次提出一种结合深度强化学习和掩码机制的任务调度方法。最后实现了所提出的系统环境和调度方法，并进行了大量的实验对方法的有效性进行证明。实验结果显示，本发明专利技术方法能应对面对动态多变的MEC环境，逼近最优的任务调度策略，有效地提高服务质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于物联网、移动边缘计算，具体涉及一种移动边缘计算中基于actor-critic深度强化学习的任务调度方法。

技术介绍

1、随着物联网(internet-of-things，iot)的迅猛发展，各类智能设备不断出现且融入了人们生活的方方面面。根据idc报告，预计至2025年，全球范围内将部署超过416亿台智能设备，为用户提供自动驾驶、虚拟现实、智慧家居等各类智能应用。通常，这些新兴的智能应用对设备性能具有较高要求且会伴随生成大量数据。在面对这些智能应用时，传统集中式的云计算模式暴露出了网络拥塞、时延高、开销大等问题，难以满足其对性能和实时性的高要求。为了缓解这个问题，移动边缘计算(mobile edge computing，mec)将计算和存储资源部署在了网络边缘，用户可将来自智能应用的计算任务卸载至配备服务器的mec节点进行处理。相比云计算环境，mec环境中的任务调度面临着以下挑战：

2、(1)mec环境中的负载状况通常与用户的工作、生活方式息息相关，这造成了mec节点中不同时段不同服务器的负载分布不均；

3、(2)mec系统通常面向的是实时或需要进行互动的场景，这要求系统能够尽可能对用户的请求做出响应，即使在高负载情况下也需要保持较短的响应时间；

4、(3)mec节点资源有限，相比云数据中心，需要进行更加合理的任务调度以高效地利用有限的资源。

5、上述因素给任务调度带来了巨大的挑战。固定模式或不合理的任务调度策略不仅会严重降低服务质量(quality-of-servi

6、作为机器学习中的一个新兴的重要分支，强化学习(reinforcement learning，rl)已被应用到云和mec环境中的资源优化问题。rl智能体通过与未知环境进行交互，以最大化长期奖励为目标进行决策，可视为优化动态多变mec环境中任务调度问题的一种潜在可行的解决方案。在mec环境中，单个边缘节点资源有限，这导致部分用户任务可能无法被按时完成。为了缓解该问题，智能体需要制定合适的任务调度策略，以更好地满足处理任务的资源需求。通过对不满足资源约束的操作给予负面反馈，基于rl的方法可以学习到不错的任务调度策略。但是，动态mec环境中的用户任务可能不断到达，不满足资源约束条件的动作占比较大，这导致rl智能体在训练前期会频繁触发违规动作和较低的训练效率。

技术实现思路

1、近年来，随着5g通讯技术的蓬勃发展，涌现出了各类新兴的智能应用(如面部识别、ar/vr、自动驾驶等)。这些智能应用展现出了计算密集与延迟敏感等特性，而移动设备有限的计算能力却限制了其进一步的发展与普及。为了缓解这一问题，本专利技术提出了一种移动边缘计算中基于actor-critic深度强化学习的任务调度方法。首先对所提出的移动边缘计算中的任务调度问题进行形式化定义。其次提出一种结合深度强化学习和掩码机制的任务调度方法。最后实现了所提出的系统环境和调度方法，并进行了大量的实验对方法的有效性进行证明。实验结果显示，本专利技术方法能应对面对动态多变的mec环境，逼近最优的任务调度策略，有效地提高服务质量。

2、本专利技术解决其技术问题具体采用的技术方案是：

3、一种移动边缘计算中基于actor-critic深度强化学习的任务调度方法，针对mec环境下的任务调度模型，定义状态空间、动作空间与奖励函数，将优化问题形式化为马尔可夫决策过程，并采用基于近端策略优化的自适应任务调度方法；基于actor-critic drl框架，通过约束策略更新幅度与掩码机制相结合，以调度用户任务并避免智能体做出违反系统约束的动作。

4、进一步地，所述mec环境下的任务调度模型当中，用户的智能设备接入基站并卸载任务至mec节点，任务按卸载时间逐一进入任务队列，mec节点配备的服务器提供计算服务；

5、mec节点所配备的服务器记为集合v＝{v1,v2,...,vn}，每台服务器所提供的计算和内存资源量记为vi＝{ricpu,rimem}，从智能设备卸载至mec节点的任务定义为一个任务队列，记为：j＝{job1,job2,job3,...,jobm}，其中，m为任务的数量；每个任务被定义为：jobi＝{ti,ri,li,ei}，其中，ti表示任务到达任务队列的时间,ri表示任务所需资源，li表示任务最大容忍延迟，ei表示任务执行时间；调度器根据当前mec系统中不同任务的资源请求和服务器的资源使用情况，将任务分配给相应的服务器；同时，每个服务器在每个时间步记录其资源的使用情况；

6、任务调度的流程为：当用户所卸载的任务到达mec节点时，系统尝试将任务添加到任务队列中以等待执行；由于mec资源有限，系统中任务队列长度也是受限的；如果任务队列满了，则无法继续添加新的任务；在这种情况下，任务将被判定执行失败；若任务的等待时间超过了其最大容忍延迟，也将导致任务执行失败；在t时刻，若调度器将jobi分配给mec服务器，服务器将分配给该任务满足其资源需求的可用资源；在t+ei时刻，当jobi执行完成，mec节点会将执行结果反馈给用户，并记录该任务的响应时间oi；此外，调度器需要判断队列中的每个任务是否满足调度条件，它从seqlen个待调度的任务中选择任务调度到mec节点中的服务器中，故计算复杂度为(n+1)seqlen；为了减小计算复杂度，使得调度器能够高效地制定任务调度策略；将服务器视为一个资源池，不考虑任务调度过程中服务器之间产生的资源碎片；在某一时刻，调度器允许进行多次调度，每次从待调度的任务中选择一个，直到向服务器发出等待信号。

7、进一步地，所述mec环境下的任务调度模型的优化目标是降低任务响应时间和提高任务完成率；一方面，采用已完成任务的平均相对等待时间间接评估任务响应时间，其定义为：

8、

9、其中，jc表示已完成任务序列；

10、另一方面，采用任务失败率间接评估任务完成率，其定义为：

11、

12、获得的优化目本文档来自技高网...

【技术保护点】

1.一种移动边缘计算中基于Actor-Critic深度强化学习的任务调度方法，其特征在于：针对MEC环境下的任务调度模型，定义状态空间、动作空间与奖励函数，将优化问题形式化为马尔可夫决策过程，并采用基于近端策略优化的自适应任务调度方法；基于Actor-Critic DRL框架，通过约束策略更新幅度与掩码机制相结合，以调度用户任务并避免智能体做出违反系统约束的动作。

2.根据权利要求1所述的移动边缘计算中基于Actor-Critic深度强化学习的任务调度方法，其特征在于：

3.根据权利要求2所述的移动边缘计算中基于Actor-Critic深度强化学习的任务调度方法，其特征在于：

4.根据权利要求3所述的移动边缘计算中基于Actor-Critic深度强化学习的任务调度方法，其特征在于：

5.根据权利要求1所述的移动边缘计算中基于Actor-Critic深度强化学习的任务调度方法，其特征在于：

【技术特征摘要】

1.一种移动边缘计算中基于actor-critic深度强化学习的任务调度方法，其特征在于：针对mec环境下的任务调度模型，定义状态空间、动作空间与奖励函数，将优化问题形式化为马尔可夫决策过程，并采用基于近端策略优化的自适应任务调度方法；基于actor-critic drl框架，通过约束策略更新幅度与掩码机制相结合，以调度用户任务并避免智能体做出违反系统约束的动作。

2.根据权利要求1所述的移动边缘计算中基于a...

【专利技术属性】
技术研发人员：陈哲毅，黄一帆，曾旺，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人