基于强化学习的协同计算任务卸载和迁移的方法及装置制造方法及图纸

技术编号:26385527 阅读:31 留言:0更新日期:2020-11-19 23:54
本发明专利技术实施例提供的基于强化学习的协同计算任务卸载和迁移的方法及装置,通过使用云边端协同网络中用户终端及服务器执行任务能耗及任务传输能耗,用户终端及服务器执行任务时延、任务传输时延及EN到云端服务器的时延,在能耗约束下,基于延迟成本最小化为目标,完成对用户设备端、云端、边缘端的能耗和延迟成本的优化,从而得到最优任务卸载和迁移策略。这样可以通过云边端协同网络,在优化能耗和延迟的基础上,协同目标端卸载任务,节省任务计算的端到端时延,优化网络能耗;并且,对任务迁移的边缘节点,通过任务迁移,提升边缘端的资源利用率,从而提升了云边端协同网络的资源利用率。

【技术实现步骤摘要】
基于强化学习的协同计算任务卸载和迁移的方法及装置
本专利技术涉及通信
,特别是涉及的基于强化学习的协同计算任务卸载和迁移的方法及装置。
技术介绍
目前随着第五代移动通信系统(5thGenerationMobileNetworks,5G)的商业推广使得物联网设备成倍增加,推动了物与物通信的快速发展。集成用户终端、移动边缘计算(MobileEdgeComputing,简称MEC)端和云端构成了云边端协同网络构架。在该构架中,用户终端主要负责实时性高、计算简单的任务,MEC负责时延敏感型、计算密集型任务,云平台负责延迟不敏感、资源密集型或计算复杂的任务。基于此,使得如何实现云边端协同网络构架的任务均衡,提升资源利用率成为亟待解决的问题。
技术实现思路
本专利技术实施例的目的在于提供的基于强化学习的协同计算任务卸载和迁移的方法及装置,用以实现云边端协同网络构架的任务均衡,提升资源利用率。具体技术方案如下:第一方面,本专利技术实施例提供了一种基于强化学习的协同计算任务卸载和迁移的方法,所述方法包括:获取云边端协同网络的能耗及延迟成本,所述能耗包括:用户终端执行任务能耗、任务传输能耗、服务器执行任务能耗,所述延迟成本包括:所述用户终端执行任务时延、任务传输时延、所述服务器执行任务时延、边缘节点到云端服务器的时延,所述服务器为云端服务器及边缘端服务器;基于所述能耗及所述延迟成本,采用基于强化学习的云边缘终端联合计算卸载和迁移算法,确定最优任务卸载和迁移策略,以使所述用户终端按照所述最优任务卸载和迁移策略,卸载任务至目标端以及任务迁移的边缘节点按照所述最优任务卸载和迁移策略进行任务迁移;其中,所述最优任务卸载和迁移策略包括:目标端以及任务迁移的边缘节点,所述基于强化学习的云边缘终端联合计算卸载和迁移算法是通过在所述能耗约束下,基于最小化所述延迟成本为目标,采用所述强化学习,从多个任务卸载和迁移策略中确定所述最优任务卸载和迁移策略。进一步的,所述基于所述能耗及所述延迟成本,采用基于强化学习的云边缘终端联合计算卸载和迁移算法,确定最优任务卸载和迁移策略,包括:步骤A,获取用户终端的所有任务;步骤B,对每个用户终端的任务,生成多个任务卸载和迁移策略,其中所述多个任务卸载和迁移策略包括:假定任务被卸载到用户设备端上,假定任务被卸载到云端上和/或假定任务被卸载到边缘端上;步骤C,获取强化学习的预设学习率α、初始化每一状态动作对(s,a)对应的Q(s,a)值、初始化奖励R,初始化当前迭代次数p、总迭代次数Ep、初始化多个任务卸载和迁移策略、预设的有限动作集合A及随机初始化的状态;其中,所述随机初始化的状态为从多个任务卸载和迁移策略中,随机选择一个任务卸载和迁移策略的变化作为状态;步骤D,在选择的任务卸载和迁移策略下,计算所有用户终端的任务的Lyapunov漂移加惩罚边界,作为初始边界;步骤E,根据从所述有限动作集合A中随机选择的一个动作a,确定当前任务卸载和迁移策略,并计算当前边界其中,所述当前边界为在时隙t内所有用户终端的任务的当前Lyapunov漂移加惩罚边界,并且,所述当前边界相较于所述初始边界发生变化;步骤F,根据所述当前边界的变化,计算奖励R,作为更新后的当前奖励R;所述当前奖励R为状态动作对使Lyapunov漂移加惩罚边界产生的变化;步骤G,根据更新后的当前奖励R及所述预设学习率α,计算Q(s,a)值,作为更新后的当前Q(s,a)值;步骤H,根据状态转移策略P,选择所述有限状态集合的一个状态,作为更新后的当前状态;其中,所述状态转移策略P是以预定概率χ随机选择有限状态集合中的状态作为下一状态,或者,以概率1-χ选择边界贡献值最大的任务对应的任务卸载和迁移策略OM的变化作为下一状态;步骤I,判定更新后的当前Q(s,a)值没有满足迭代结束条件,并且当前迭代次数p没有达到所述总迭代次数Ep,则返回步骤D,按照更新后的当前状态继续执行,直至更新后的当前Q(s,a)值满足所述迭代结束条件,得到最优任务卸载和迁移策略OMm,i。进一步的,所述方法还包括:在步骤D,在选择的任务卸载和迁移策略下,计算所有用户终端的任务的Lyapunov漂移加惩罚边界,作为初始边界之后,在步骤E,根据从所述有限动作集合A中随机选择的一个动作a,并计算当前边界之前,在当前迭代次数p未达到所述总迭代次数Ep的情况下,根据所述状态转移策略P,选择所述有限状态集合的一个状态,作为更新后的当前状态;根据更新后的当前状态,确定当前有限动作集合;从所述当前有限动作集合中选择一个动作,其中,所述动作为随机选取一个用户终端的任务和当前状态关联的任务卸载和迁移策略;所述步骤E,根据从所述有限动作集合A中随机选择的一个动作a,确定当前任务卸载和迁移策略,并计算当前边界包括:根据从所述有限动作集合A中随机选择的一个动作a,确定关联的任务卸载和迁移策略;根据关联的任务卸载和迁移策略,计算所有用户终端的任务的当前Lyapunov漂移加惩罚边界,作为当前边界第二方面,本专利技术实施例提供了一种基于强化学习的协同计算任务卸载和迁移的装置,所述装置包括:控制模块,用于获取云边端协同网络的能耗及延迟成本,所述能耗包括:用户终端执行任务能耗、任务传输能耗、服务器执行任务能耗,所述延迟成本包括:所述用户终端执行任务时延、任务传输时延、所述服务器执行任务时延、边缘节点到云端服务器的时延,所述服务器为云端服务器及边缘端服务器;资源分配模块,用于基于所述能耗及所述延迟成本,采用基于强化学习的云边缘终端联合计算卸载和迁移算法,确定最优任务卸载和迁移策略,以使所述用户终端按照所述最优任务卸载和迁移策略,卸载任务至目标端以及任务迁移的边缘节点按照所述最优任务卸载和迁移策略进行任务迁移;其中,所述最优任务卸载和迁移策略包括:目标端以及任务迁移的边缘节点,所述基于强化学习的云边缘终端联合计算卸载和迁移算法是通过在所述能耗约束下,基于最小化所述延迟成本为目标,采用所述强化学习,从多个任务卸载和迁移策略中确定所述最优任务卸载和迁移策略。进一步的,所述资源分配模块,用于:步骤A,获取用户终端的所有任务;步骤B,对每个用户终端的任务,生成多个任务卸载和迁移策略,其中所述多个任务卸载和迁移策略包括:假定任务被卸载到用户设备端上,假定任务被卸载到云端上和/或假定任务被卸载到边缘端上;步骤C,获取强化学习的预设学习率α、初始化每一状态动作对(s,a)对应的Q(s,a)值、初始化奖励R,初始化当前迭代次数p、总迭代次数Ep、初始化多个任务卸载和迁移策略、预设的有限动作集合A及随机初始化的状态;其中,所述随机初始化的状态为从多个任务卸载和迁移策略中,随机选择一个任务卸载和迁移策略的变化作为状态;步骤D,在选择的任务卸载和迁移策略下,计算所有用户终端的任务的Lyapunov漂移加惩罚边界,作为初始边界;步骤E,根据从所述有限动本文档来自技高网...

【技术保护点】
1.一种基于强化学习的协同计算任务卸载和迁移的方法,其特征在于,所述方法包括:/n获取云边端协同网络的能耗及延迟成本,所述能耗包括:用户终端执行任务能耗、任务传输能耗、服务器执行任务能耗,所述延迟成本包括:所述用户终端执行任务时延、任务传输时延、所述服务器执行任务时延、边缘节点到云端服务器的时延,所述服务器为云端服务器及边缘端服务器;/n基于所述能耗及所述延迟成本,采用基于强化学习的云边缘终端联合计算卸载和迁移算法,确定最优任务卸载和迁移策略,以使所述用户终端按照所述最优任务卸载和迁移策略,卸载任务至目标端以及任务迁移的边缘节点按照所述最优任务卸载和迁移策略进行任务迁移;其中,所述最优任务卸载和迁移策略包括:目标端以及任务迁移的边缘节点,所述基于强化学习的云边缘终端联合计算卸载和迁移算法是通过在所述能耗约束下,基于最小化所述延迟成本为目标,采用所述强化学习,从多个任务卸载和迁移策略中确定所述最优任务卸载和迁移策略。/n

【技术特征摘要】
1.一种基于强化学习的协同计算任务卸载和迁移的方法,其特征在于,所述方法包括:
获取云边端协同网络的能耗及延迟成本,所述能耗包括:用户终端执行任务能耗、任务传输能耗、服务器执行任务能耗,所述延迟成本包括:所述用户终端执行任务时延、任务传输时延、所述服务器执行任务时延、边缘节点到云端服务器的时延,所述服务器为云端服务器及边缘端服务器;
基于所述能耗及所述延迟成本,采用基于强化学习的云边缘终端联合计算卸载和迁移算法,确定最优任务卸载和迁移策略,以使所述用户终端按照所述最优任务卸载和迁移策略,卸载任务至目标端以及任务迁移的边缘节点按照所述最优任务卸载和迁移策略进行任务迁移;其中,所述最优任务卸载和迁移策略包括:目标端以及任务迁移的边缘节点,所述基于强化学习的云边缘终端联合计算卸载和迁移算法是通过在所述能耗约束下,基于最小化所述延迟成本为目标,采用所述强化学习,从多个任务卸载和迁移策略中确定所述最优任务卸载和迁移策略。


2.如权利要求1所述的方法,其特征在于,所述基于所述能耗及所述延迟成本,采用基于强化学习的云边缘终端联合计算卸载和迁移算法,确定最优任务卸载和迁移策略,包括:
步骤A,获取用户终端的所有任务;
步骤B,对每个用户终端的任务,生成多个任务卸载和迁移策略,其中所述多个任务卸载和迁移策略包括:假定任务被卸载到用户设备端上,假定任务被卸载到云端上和/或假定任务被卸载到边缘端上;
步骤C,获取强化学习的预设学习率α、初始化每一状态动作对(s,a)对应的Q(s,a)值、初始化奖励R,初始化当前迭代次数p、总迭代次数Ep、初始化多个任务卸载和迁移策略、预设的有限动作集合A及随机初始化的状态;其中,s为所述强化学习的有限状态集合中的当前状态,所述当前状态为多个任务卸载和迁移策略发生变化的状态,所述a为所述有限动作集合A中的当前动作,所述当前动作为在当前用户终端的任务变化为下一用户终端的任务时,将当前用户终端的任务对应的任务卸载和迁移策略交换为下一用户终端的任务对应的任务卸载和迁移策略,为预设折扣因子,s'为下一状态,a'为下一动作,所述随机初始化的状态为从多个任务卸载和迁移策略中,随机选择一个任务卸载和迁移策略的变化作为状态;
步骤D,在选择的任务卸载和迁移策略下,计算所有用户终端的任务的Lyapunov漂移加惩罚边界,作为初始边界;
步骤E,根据从所述有限动作集合A中随机选择的一个动作a,确定当前任务卸载和迁移策略,并计算当前边界其中,所述当前边界为在时隙t内所有用户终端的任务的当前Lyapunov漂移加惩罚边界,并且,所述当前边界相较于所述初始边界发生变化;
步骤F,根据所述当前边界的变化,计算奖励R,作为更新后的当前奖励R;所述当前奖励R为状态动作对使Lyapunov漂移加惩罚边界产生的变化;
步骤G,根据更新后的当前奖励R及所述预设学习率α,计算Q(s,a)值,作为更新后的当前Q(s,a)值;
步骤H,根据状态转移策略P,选择所述有限状态集合的一个状态,作为更新后的当前状态;其中,所述状态转移策略P是以预定概率χ随机选择有限状态集合中的状态作为下一状态,或者,以概率1-χ选择边界贡献值最大的任务对应的任务卸载和迁移策略OM的变化作为下一状态;
步骤I,判定更新后的当前Q(s,a)值没有满足迭代结束条件,并且当前迭代次数p没有达到所述总迭代次数Ep,则返回步骤D,按照更新后的当前状态继续执行,直至更新后的当前Q(s,a)值满足所述迭代结束条件,得到最优任务卸载和迁移策略OMm,i,其中,为与第i个边缘节点连接的第m个用户终端的任务对应的卸载和迁移策略向量,为与第i个边缘节点连接的第m个用户终端的任务是否卸载在云端,为与第i个边缘节点连接的第m个用户终端的任务是否卸载在边缘端,为与第i个边缘节点连接的第m个用户终端的任务是否卸载在用户设备端,ym,i,1为将与第i个边缘节点连接的第m个用户终端的任务是否迁移到第1个边缘节点上的任务迁移策略,ym,i,2为将与第i个边缘节点连接的第m个用户终端的任务是否迁移到第2个边缘节点上的任务迁移策略,ym,i,N为将与第i个边缘节点连接的第m个用户终端的任务是否迁移到第N个边缘节点上的任务迁移策略,中只有一个为1,其余为0,当时,表示第i个边缘节点连接的第m个用户终端的任务卸载在边缘端,ym,i,1,ym,i,2,……,ym,i,N中有一个为1,其余为0;当时,ym,i,1,ym,i,2,……,ym,i,N全部为0,当时,表示第i个边缘节点连接的第m个用户终端的任务卸载在云端,当时,表示第i个边缘节点连接的第m个用户终端的任务卸载在用户设备端,i、m均为序号,N为边缘节点的总数。


3.如权利要求2所述的方法,其特征在于,在步骤D,在选择的任务卸载和迁移策略下,计算所有用户终端的任务的Lyapunov漂移加惩罚边界,作为初始边界之后,在步骤E,根据从所述有限动作集合A中随机选择的一个动作a,确定当前任务卸载和迁移策略,并计算当前边界之前,所述方法还包括:
在当前迭代次数p未达到所述总迭代次数Ep的情况下,根据所述状态转移策略P,选择所述有限状态集合的一个状态,作为更新后的当前状态;
根据更新后的当前状态,确定当前有限动作集合;
从所述当前有限动作集合中选择一个动作,其中,所述动作为随机选取一个用户终端的任务和当前状态关联的任务卸载和迁移策略;
所述步骤E,根据从所述有限动作集合A中随机选择的一个动作a,确定当前任务卸载和迁移策略,并计算当前边界包括:
根据从所述有限动作集合A中随机选择的一个动作a,确定关联的任务卸载和迁移策略;
根据关联的任务卸载和迁移策略,计算所有用户终端的任务的当前Lyapunov漂移加惩罚边界,作为当前边界


4.一种基于强化学习的协同计算任务卸载和迁移的装置,其特征在于,所述装置包括:
控制模...

【专利技术属性】
技术研发人员:舒新建徐思雅杨燚王春迎郭少勇刘岩吴利杰安致嫄刘庆川王慕维李逸民
申请(专利权)人:国网河南省电力公司信息通信公司北京邮电大学国家电网有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1