边缘计算网络中基于学习的低延时任务调度方法技术

技术编号：21547602 阅读：22 留言：0更新日期：2019-07-06 21:17

本发明专利技术公开了一种边缘计算网络中基于学习的低延时任务调度方法，针对现有任务调度方法中，启发式算法容易受环境变化影响难以设计，拟使用强化学习技术设计任务调度方案。在资源管理中系统做出的决策通常是高度重复的，因此可以为RL算法产生大量训练数据。其次，RL可以将复杂系统的决策策略建模成深度神经网络。而且通过不断与环境交互学习，可以对特定目标(最低延时)进行优化。

Learning-based Low Delay Task Scheduling in Edge Computing Networks

全部详细技术资料下载

【技术实现步骤摘要】
边缘计算网络中基于学习的低延时任务调度方法
本专利技术涉及移动计算
，尤其涉及一种边缘计算网络中基于学习的低延时任务调度方法。
技术介绍
近年来随着信息技术的发展，移动智能设备呈爆炸式增长的趋势，同时也刺激了许多新型应用的出现，如虚拟现实、增强现实、移动交互式游戏等等。而用户对于这些交互应用/服务的延迟非常敏感。边缘计算是一种新型的分布式计算架构，旨在将计算的应用、数据和服务的控制从互联网的某些中心节点(“核心”)到转移到另一逻辑极端(“边缘”)，邻近移动智能设备以及终端用户。将移动智能设备的任务卸载至网络的边缘节点可以有效解决时延问题，而一个在边缘计算网络中的合理任务调度方案能够为用户提供低延时服务。在边缘服务器上可以根据用户需要部署相应的服务，对卸载至边缘服务器的任务进行资源的合理分配。资源管理问题的大多数现有解决方案都是使用设计的启发式算法解决的，典型的设计流程是：(1)简化问题模型提出启发式算法；(2)测试和调整启发式算法以便在实践中获得良好性能。如果问题的某些方面(如负载)发生变化，则不得不重复这些过程。因此我们设计了一种学习管理资源的任务调度策略...

【技术保护点】
1.一种边缘计算网络中基于学习的低延时任务调度方法，多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(EC server)集群连接，其特征在于，每次只保留N个任务到达的系统状态，而N个之外的任务信息放在积压部分中只对任务数量计数，在每个时间步，对N个任务进行调度，允许智能体Agent在每个时间步执行多个动作a，在每个时间步t，时间被冻结，直到选择无效的动作或者是尝试调度的不合适的任务，时间才会进行，集群图像移动一步，每进行一个时间步，就相当于Agent进行一次有效的决策，然后Agent观察状态转换，也就是任务被调度到集群图像中的适当位置；在每个时间步设置奖励为

【技术特征摘要】
1.一种边缘计算网络中基于学习的低延时任务调度方法，多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(ECserver)集群连接，其特征在于，每次只保留N个任务到达的系统状态，而N个之外的任务信息放在积压部分中只对任务数量计数，在每个时间步，对N个任务进行调度，允许智能体Agent在每个时间步执行多个动作a，在每个时间步t，时间被冻结，直到选择无效的动作或者是尝试调度的不合适的任务，时间才会进行，集群图像移动一步，每进行一个时间步，就相当于Agent进行一次有效的决策，然后Agent观察状态转换，也就是任务被调度到集群图像中的适当位置；在每个时间步设置奖励为其中，J是当前系统中的任务集(被调度或是等待服务)，Ti是任务i的理想完成时间，Agent在时间步中没有得到任何中间决策的奖励，设定折扣因子为1，随着时间的累积奖励与负的总和任务减速相符合，累计奖励最大就是最小化平均任务减速取负，将状态到动作的映射表示为一个神经网络，将图像的集合作为输入，输出所有可能动作的值函数，在一个情节化episode的环境中训练策略网络，在每个episode中固定数量的任务到达，根据策略进行任务调度，当所有任务完成调度时，情节终止。2.如权利要求1所述的一种边缘计算网络中基于学习的低延时任务调度方法，其特征在于，将任务调度问题被转化为一个学习问题，进一步包括：形式化强化学习将其表示为马尔可夫决策过程(MDP)，假设Agent位于一个环境中，该环境由某个状态s表示，Agent可以在环境中执行某些操作，然后接收奖励，并将环境转换为新的状态，转换的经验表示为s，a，r，s′，分别为状态、动作、奖励和下一状态，这些状态集、动作集以及转换规则组成了一个MDP；这个过程的一个episode形成一个有限序列的状态，行为和奖励：{s0，a0，r0，s1，a1，r1，…，st，at，rt，…，sn-1，an-1，rn-1，}其中，st为当前状态，at为当前行为，rt为执行行为后的奖励，st+1为下一状态；利用强化学习值迭代的算法q-learning，将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取动作获得较大的收益，其更新公式为：其中，s和a时当前状态和当前状态下执行的动作，r为执行a后获得的奖励，s′为下一个状态，a′为下一个状态要执行的动作，在更新的过程中，引入学习速率α，控制先前的Q值和新的Q值之间有多少差异被保留，参数γ则用来对奖励进行折扣，当γ接近0时，关注短期...

【专利技术属性】
技术研发人员：孙子惠，邓晓衡，罗杰，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人