一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法组成比例

技术编号:22501839 阅读:14 留言:0更新日期:2019-11-09 02:29
本申请公开一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法,以支持边缘服务器对资源分配的优化。边缘服务器将移动边缘计算系统状态作为输入,边缘服务器资源调度模块通过深度强化学习算法输出最优资源分配方案,移动设备终端根据最优资源分配方案进行任务卸载并与边缘服务器一同执行任务。该深度强化学习算法由DNN,MCTS,LSTM相互协作完成,与贪婪搜索和DQN算法相比,本文提出的算法在优化服务时延与优化移动终端的服务能量消耗方面有大幅提升。

A task allocation method of edge computing based on deep Monte Carlo tree search

The application discloses an edge computing task allocation method based on deep Monte Carlo tree search to support the optimization of resource allocation by edge servers. The edge server takes the status of mobile edge computing system as input, and the resource scheduling module of edge server outputs the optimal resource allocation scheme through deep reinforcement learning algorithm. The mobile device terminal unloads the task according to the optimal resource allocation scheme and executes the task together with the edge server. Compared with greedy search algorithm and dqn algorithm, the algorithm proposed in this paper can greatly improve the optimization of service delay and service energy consumption of mobile terminals.

【技术实现步骤摘要】
一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法
本专利技术涉及一种智能通信领域,特别涉及一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法。
技术介绍
目前已有一些算法被应用于移动边缘计算资源的优化分配中。第一种方法采用线性规划算法,对计算资源和带宽资源进行优化,来提高系统最大吞吐量并降低服务响应延时,以提升移动边缘系统性能,但该方法不能调整任务的卸载率。第二种是基于Lyapunov的优化方法,是一种动态调整计算任务卸载率的算法,能够降低计算任务完成的时间,其缺点在于能处理的任务复杂度较低,不能处理复杂度较高的分配任务。并且这两种资源分配优化方法中采用的线性规划算法、Lyapunov算法都是启发式学习,需要人类的经验进行指导才能完成。此外,5G物联网场景下移动设备数量大幅增加,移动用户终端计算任务的需求多样,优化问题变得复杂,现有的方法很难处理高复杂度的优化问题。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法,在移动用户终端计算任务的需求多样、优化问题变得复杂时,也能实现对环境资源分配的优化。为了实现上述专利技术目的,本专利技术提供了以下技术方案:当移动用户终端生成计算任务时,边缘服务器更新移动边缘计算系统状态信息;所述移动边缘计算系统包括移动设备终端,无线通信基站,边缘服务器;所述移动边缘计算系统状态信息包括边缘服务器的计算能力,无线通信基站的无线带宽资源,移动设备的任务请求信息,所述任务请求信息包括每个移动设备终端和基站的历史信道增益信息,当前待处理的任务的数据量大小,完成当前任务所需的CPU时钟周期数,移动设备终端的本地CPU时钟频率;边缘服务器将移动边缘计算系统状态信息传输到DNN(深度神经网络)、MCTS(蒙特卡洛树)和LSTM(长短期记忆网络);所述LSTM根据移动设备终端和无线通信基站的信道增益对将来信道增益进行预测,将得到的信道增益预测数据发送到MCTS和DNN;DNN根据移动边缘计算系统状态信息和信道预测数据,得到资源分配动作先验概率,将得到的资源分配动作先验概率发送给MCTS;MCTS结合移动边缘计算系统状态信息,信道增益预测数据和资源分配动作先验概率搜索最优资源分配方案,MCTS搜索结束后,将最优资源分配方案发送给移动设备终端,移动设备终端将任务卸载给移动边缘计算系统,移动边缘计算系统执行模块根据最优资源分配方案执行最优资源分配行为。其中MCTS对任务状态进行仿真搜索找到的最优资源分配方案,利用所述MCTS搜索得到的最优资源分配方案存入经验池中,所述经验池大小固定,当数据存满时删除最早存入的数据然后存入新的数据。并每隔一段时间使用经验池中的数据训练所述DNN,以提高所述DNN的预测准确率,使DNN输出更新后的资源分配动作先验概率更好地指导MCTS进行搜索,以优化所述边缘计算任务分配方法。同时MCTS更好的搜索结果又可以更好地更新DNN使得其预测更准确。本专利技术提供了MCTS搜索流程如下:s1:根据移动边缘计算系统状态初始化MCTS的根节点;s2:将根节点设置为搜索起点并开始进行下一次搜索;s3:判断是否完成预定次数的搜索,若是,执行步骤s9,若否,则执行步骤s4;s4:判断当前节点是否为叶子节点,若是,执行步骤s5,若否,则执行步骤s6;s5:进入到叶子节点后,即计算资源分配完成后,评估该资源分配方案,返回奖赏,根据奖赏更新该条路径上所有节点的状态;s6:判断当前节点是否为已全扩展节点,若否,执行步骤s7,若是,则执行步骤s8;s7:根据DNN的输出的先验概率扩展当前节点的所有子节点,并根据公式选择下一节点,其中Q(v′k)定义为节点v′k的累积奖励值,N(v′k)定义为节点v′k的访问次数,e为平衡算法开发探索的比例系数,p(v′k|sk)表示下一节点的先验概率;s8:从所有可能的资源分配动作中选取搜索价值最高的动作,执行选择的动作进入下一层结点;s9:输出访问次数最多的路径为最优的资源分配方案。上述最优分配方案又可作为DNN的训练集,以再次提升搜索性能。奖励值r的获取方法如下:设置最优的执行时间tbest为采用历史资源分配方案完成任务所用的最小时间,初始值为无穷大,其中t表示当前资源分配方案完成任务所需的时间,σ为设定值且σ>1。本专利技术采用LSTM预测信道增益原理如下:如图1为LSTM网络结构图:LSTM网络根据历史时刻信道增益hτ-p+1,hτ-p+2,...,hτ来预测将来时刻信道增益hτ+1,将LSTM网络定义为hτ+1=gθ(hτ-p+1,hτ-p+2,...,hτ)这里,θ被定义为LSTM网络的权重参数,LSTM网络使用细胞单元来存储长期状态,主要由三个门控制,即输入门,忘记门和输出门。如图2所示为LSTM细胞结构图:每个门允许信息选择性地通过,这由sigmoid函数和逐点乘法运算的神经层来实现,主要组成部分可归纳如下。输入门:它确定将当前网络的输入保存到单元状态的数量,输入门的实现显示在(1)和(2)中,当前输入hτ和前一个LSTM细胞状态都用作输入门的输入,然后权重矩阵乘法的结果将确定需要更新哪些信息,最后输入sigmoid层或tanh层。忘记门:它决定忘记网络上当前有多少输入,然后将剩余的输出保存到当前的单元状态。门从当前输入hτ和先前的LSTM细胞状态获得信息,并输出0到1的概率,其中1表示完全保留,0表示完全放弃。相关等式如下输出门:它将输出新的LSTM细胞状态。首先,sigmoid层将确定需要导出单元的哪些部分。然后将单元状态发送到tanh层以输出[-1,1]之间的概率值。最后,概率值乘以sigmoid层的输出。相关方程式如下:通过优化目标函数J(θ)来训练LSTM参数θ这里是从移动边缘计算网络获得的数据标签,正则化项ξ‖θ‖2避免过度拟合。从MEC网络收集连续p+1个时刻的信道增益,然后使用前p个数据作为LSTM的输入,并使用第p+1个数据作为标签来训练LSTM网络。本专利技术采用的DNN是预先训练好的,训练方法如下:根据移动边缘计算系统的状态,生成一个模拟环境,首先蒙特卡洛进行等比例搜索,即为同一任务分配的资源比例或者任务卸载比例的不同方案之间是等比的,具体的比例设定根据情况而定,搜索过程和上述资源分配方法类似,不同处在于该训练过程的搜索方案只在模拟环境进行模拟,搜索结果只用作DNN的训练集,搜索结果不用在真实的移动边缘计算系统中执行。搜索结束后将搜索结果发送给DNN,DNN将搜索结果作为训练集,因为DNN有函数拟合性能,对MCTS没输出的一些状态也能输出先验概率,因此,当有移动边缘计算系统状态信息和信道增益预测数据输入时,DNN能够输出资源分配动作先验概率给MCTS。此时,MTCS会根据该先验概率在真实环境中进行搜索,得到最优的资源分配方案(搜索结果)。接着,我们利用MTCS在真实环境中得到的搜索结果对DNN进行反向训练更新,,经过MTCS搜索结果的实时训练,DNN就不断被更新、优化,从而输出更准确的先验概率给MCTS,MCTS根据更新后的先验概率不断优化其输出的资源分配方案。如图3所示是本专利技术所采用的DNN结构。将深度神经网络的最后几层分离,以构建具有子层的神经网络,以输出多任务本文档来自技高网...

【技术保护点】
1.一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法,其特征在于,所述方法包括:步骤一:边缘服务器更新移动边缘计算系统状态信息;所述移动边缘计算系统状态信息包括:边缘服务器的计算资源情况、无线通信基站与移动终端的通信资源情况,以及移动设备的任务请求信息;所述任务请求信息包括:每个移动设备终端和无线通信基站的信道增益信息、当前待处理的任务的数据量大小、移动设备终端完成当前任务所需的CPU时钟周期数,以及移动设备终端CPU时钟频率;步骤二:边缘服务器将移动边缘计算系统状态信息传输到DNN、MCTS和LSTM;所述LSTM根据移动设备终端和无线通信基站的信道增益预测未来信道增益,并将得到的信道增益预测数据发送到MCTS和DNN;所述DNN根据移动边缘计算系统状态信息和信道增益预测数据得到资源分配动作先验概率,将得到的资源分配动作先验概率发送给MCTS;步骤三:MCTS根据所述移动边缘计算系统状态信息、信道增益预测数据和资源分配动作先验概率进行搜索,得到最优资源分配方案;并将所述最优资源分配方案发送给移动设备终端,移动设备终端将任务卸载给移动边缘计算系统执行模块,移动边缘计算系统执行模块根据最优资源分配方案执行最优资源分配行为。...

【技术特征摘要】
1.一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法,其特征在于,所述方法包括:步骤一:边缘服务器更新移动边缘计算系统状态信息;所述移动边缘计算系统状态信息包括:边缘服务器的计算资源情况、无线通信基站与移动终端的通信资源情况,以及移动设备的任务请求信息;所述任务请求信息包括:每个移动设备终端和无线通信基站的信道增益信息、当前待处理的任务的数据量大小、移动设备终端完成当前任务所需的CPU时钟周期数,以及移动设备终端CPU时钟频率;步骤二:边缘服务器将移动边缘计算系统状态信息传输到DNN、MCTS和LSTM;所述LSTM根据移动设备终端和无线通信基站的信道增益预测未来信道增益,并将得到的信道增益预测数据发送到MCTS和DNN;所述DNN根据移动边缘计算系统状态信息和信道增益预测数据得到资源分配动作先验概率,将得到的资源分配动作先验概率发送给MCTS;步骤三:MCTS根据所述移动边缘计算系统状态信息、信道增益预测数据和资源分配动作先验概率进行搜索,得到最优资源分配方案;并将所述最优资源分配方案发送给移动设备终端,移动设备终端将任务卸载给移动边缘计算系统执行模块,移动边缘计算系统执行模块根据最优资源分配方案执行最优资源分配行为。2.根据权利要求1所述的一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法,其特征在于,预先对所述DNN进行训练,使其满足:当有移动边缘计算系统状态信息和信道增益预测数据输入时,能够输出资源分配动作先验概率给MCTS。3.根据权利要求1所述的一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法,其特征在于,步骤三中所述搜索包括以下步骤:s1:MCTS根据移动边缘计算系统状态初始化根节点;s2:将根节点设置为搜索起点进行下一次搜索;s3:判断是否完成预定次数的搜索,若是,执行步骤s9,若否,则执行步骤s4;s4:判断当前节点是否为叶子节点,若是,执行步骤s5,若否,则执行步骤s6;s5:进入到叶子节点后,即计算资源分配完成后,评估该资源分配方案,返回奖赏,根据奖赏更新该条路径上所有节点的状态;s6:判断当前节点是否为已全扩展节点,若否,执行步骤s7,若是,则执行步骤s8;s7:根据DNN的输出的资源分配动作先验概率扩展当前节点的所有子节点,并根据公式选择下一节点,其中Q(v′k)定义为节点v′k的累积奖励值,N(v′k)定义为节点v′k的访问次数,e为平衡算法开发探索的比例系数,p(v′k|sk)表示下一节点的先验概率,k表示当前节点的层数;s8:从所有可能的资源分配动作中选取搜索价...

【专利技术属性】
技术研发人员:陈杰男陈思宇李帅王琪
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1