一种基于分层策略的异构任务调度方法技术

技术编号:34574310 阅读:16 留言:0更新日期:2022-08-17 13:06
本发明专利技术公开了一种基于分层策略的异构任务调度方法,包括以下步骤:S1.构建异构任务调度模型并确定调度的目标问题;S2.构建基于分层策略的异构任务调度的离线学习模型:第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块,其中第k个模块称为DRLk;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块,第二层策略模块的输入为,输出为;S3.进行离线训练得到成熟的模型;S4.对训练得到的模型进行在线应用,实现异构任务调度。本发明专利技术提供的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。有效实现了异构任务的联合调度。有效实现了异构任务的联合调度。

【技术实现步骤摘要】
一种基于分层策略的异构任务调度方法


[0001]本专利技术涉及任务驱动下的通信传输,特别是涉及一种基于分层策略的异构任务调度方法。

技术介绍

[0002]近些年来,任务驱动下的通信传输成为了物联网领域的焦点。任务类型包括但不限于以信息年龄(Age of information, AoI)为优化目标的时新型任务和以吞吐量为目标的数据型任务。相比基于预先划分信道资源这种传统调度方式,以信道资源共享为基础的联合调度算法能更好地迎合异构任务驱动通信的需求并极大地提升物联网的综合能效,但是,目前而言该问题是一个马尔科夫决策过程(Markov decision process, MDP),并且存在高维状态和行动空间以及时变约束条件,并没有一个高效的解决方法,能够实现高维状态和行动空间以及时变约束条件下的异构任务调度。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足,提供一种基于分层策略的异构任务调度方法,适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程,有效实现了异构任务的联合调度。
[0004]本专利技术的目的是通过以下技术方案来实现的:一种基于分层策略的异构任务调度方法,包括以下步骤:S1.构建异构任务调度模型并确定调度的目标问题;步骤S1中所述的异构任务调度模型包括:设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;其中,第k个信道在第t个时隙选择服务的任务编号记为:如果,代表该信道在第t个时隙不会开启任何设备的数据传输;如果,代表该信道在第t个时隙开始服务第个时新型任务;如果,代表该信道在第t个时隙开始服务第个数据型任务;考虑服务一次第n个数据型任务需要占用信道个时隙,信道在被占用期间不能服务其他任务;用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么;否则,等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间。
[0005]步骤S1中所述确定调度的目标问题包括:
设优化目标有两个,第一个是时新型任务对应的信息年龄惩罚函数,其中是第m个时新型任务的信息年龄;第二个是数据型任务的吞吐量,其中第n个数据型任务在第t个时隙于第k个信道上产生的吞吐量为其中,为第k个信道的带宽,为基站端的信噪比,为第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益;吞吐量当第k个信道在第t个时隙开始服务或正在服务第n个数据型任务时才存在,目标问题总结为:务或正在服务第n个数据型任务时才存在,目标问题总结为:其中在x大于0的时候等于1,在x不大于0的时候等于0;同时,上述目标问题的解需要满足以下限制条件:的解需要满足以下限制条件:的解需要满足以下限制条件:(1.1)(1.2)(1.3)(1.4)其中,公式(1.1)为的更新方法,包括以下两种情况:一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即,那么时新型任务数据送达基站的概率为,此时;其中为单个信道在一个时隙内成功服务第m个时新型任务的概率;在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为,此时;二、如果没有信道在第t个时隙服务了第m个时新型任务,即,则;公式(1.2)为的更新方法,包括三种情况:一、如果当前第k个信道正在服务第n个数据型任务,即,则在下个时隙,第k个信道的释放时间减少一个时隙;
二、如果当前第k个信道准备开始服务第n个数据型任务,即,则在下个时隙,第k个信道的释放时间为;三、如果当前第k个信道没有在服务也不准备服务第n个数据型任务,则的值为0;公式(1.3)为的更新方法,考虑具有平稳性和各态历经性,所以(1.3)成立,其中是一个常数;考虑,其中包含所有的取值,是一个有限实数集合;公式(1.4)给出了的取值约束,如果当前第k个信道正在服务数据型任务,即成立,则该信道不能再去服务其他任务,即;上述目标问题是一个具有高维状态和行动空间以及时变约束条件的马尔科夫决策过程,其中状态空间为,包含三个变量,定义为,,,行动空间为;其中,表示第n行第k列的元素,表示第n行第k列的元素;S2.构建基于分层策略的异构任务调度的离线学习模型;S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块, 其中第k个模块称为DRL
k
;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:S2011.搭建DRL
k
模块的行动网络:评估行动网络的输入是,输出是一个整数,记为;其中,,表示中第k列元素构成的向量,,表示中第k列元素的和;评估行动网络包含一个全连接神经网络,其中为其参数;其中输入层节点数量为M+N+1,输出层节点数量为N+2,预先设定隐藏层数量、隐藏层节点以及激活函数(默认为两层隐藏层,64个节点,激活函数选择sigmod函数);在将送入参数为的全连接神经网络后,在输出层得到J+2个归一化后的输出值,对归一化的输出值采样即可得到的值;同时成立,令;目标行动网络和评估行动网络的结构完全一致,其参数用来表征;S2012.搭建DRL
k
模块的价值网络:
评估价值网络的输入是和,其中,输出是的价值,记为;评估价值网络包含一个全连接神经网络,其参数用来表征,其中输入层节点数量为M+NK+K+1,输出层节点数量为1,预先设定隐藏层数量、隐藏层节点以及激活函数;目标价值网络和评估价值网络的结构完全一致,其参数用来表征,输出为;S2013.搭建DRL
k
模块的经历缓存模块,每条经历包含,其中中(1.5)经历缓存模块用于缓存条经历;S2014.将集合中的值分别赋给k,并对于每一个k值都执行步骤S2011~S2014,完成第一层策略模块中所有DRL模块的搭建;S202.构建第二层策略模块,该模块的输入为,输出为,该模块的搭建包含以下两个步骤;S2021.构建一个M行列的惠特尔指数表格,第m行第x列的元素通过求解以下方程得到其中其中通过求解以下方程组得到其中,为第m个时新型任务在时的惠特尔指数;为中间变量;S2022.基于惠特尔指数表格得到:通过下面的公式得到的值其中,为第t个时隙时,M个时新型任务中惠特尔指数排在第大的那个设备的编号,的等于中值等于N+1的元素的个数。
[0006]S3.进行离线训练得到成熟的模型;
S301.初始化,,并随机初始化;其中,即时的;由于第n行第k列的元素;而,其中包含所有的取值,是一个有限实数集合;故的每一个元素均随机取中的一个取值,即得到了随机初始化后的;S302.得到;S303.基于步骤S2021中惠特尔指数表格的构建方法,构建惠特尔指数表格;S304.令;S305.调用步骤S2011中搭建的评估行动网络,将作为的输入,得到第一层策略的输出;S306.基于步骤S2022中的计算方法,得到第二层策略的输出;S307.基于公式(1.1),(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分层策略的异构任务调度方法,其特征在于:包括以下步骤:S1.构建异构任务调度模型并确定调度的目标问题;所述的异构任务调度模型包括:设一个物联网系统中,有一个基站采用K个上行信道服务异构的两种任务,包括M个时新型任务和N个数据型任务;其中,第k个信道在第t个时隙选择服务的任务编号记为:如果,代表该信道在第t个时隙不会开启任何设备的数据传输;如果,代表该信道在第t个时隙开始服务第个时新型任务;如果,代表该信道在第t个时隙开始服务第个数据型任务;考虑服务一次第n个数据型任务需要占用信道个时隙,信道在被占用期间不能服务其他任务;用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况:如果第k个信道在第t个时隙没有在服务第n个数据型任务,那么;否则,等于第k个信道距离服务完第n个数据型任务的剩余时隙数,也就是第k个信道被释放的时间;S2.构建基于分层策略的异构任务调度的离线学习模型;S3.进行离线训练得到成熟的模型;S4.对训练得到的模型进行在线应用,实现异构任务调度。2.根据权利要求1所述的一种基于分层策略的异构任务调度方法,其特征在于:步骤S1中所述确定调度的目标问题包括:设优化目标有两个,第一个是时新型任务对应的信息年龄惩罚函数,其中是第m个时新型任务的信息年龄;第二个是数据型任务的吞吐量,其中第n个数据型任务在第t个时隙于第k个信道上产生的吞吐量为其中,为第k个信道的带宽,为基站端的信噪比,为第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益;吞吐量当第k个信道在第t个时隙开始服务或正在服务第n个数据型任务时才存在,目标问题总结为:正在服务第n个数据型任务时才存在,目标问题总结为:其中在x大于 0的时候等于1,在x不大于0的时候等于0;同时,上述目标问题的解需要满足以下限制条件:需要满足以下限制条件:
(1.1)(1.2)(1.3)(1.4)其中,公式(1.1)为的更新方法,包括以下两种情况:一、如果至少有一个信道在第t个时隙服务了第m个时新型任务,即,那么时新型任务数据送达基站的概率为,此时;其中为单个信道在一个时隙内成功服务第m个时新型任务的概率;在x等于m的时候等于1,否则等于0;同时,时新型任务数据没有送达基站的概率为,此时;二、如果没有信道在第t个时隙服务了第m个时新型任务,即,则;公式(1.2)为的更新方法,包括三种情况:一、如果当前第k个信道正在服务第n个数据型任务,即,则在下个时隙,第k个信道的释放时间减少一个时隙;二、如果当前第k个信道准备开始服务第n个数据型任务,即,则在下个时隙,第k个信道的释放时间为;三、如果当前第k个信道没有在服务也不准备服务第n个数据型任务,则的值为0;公式(1.3)为的更新方法,考虑具有平稳性和各态历经性,所以(1.3)成立,其中是一个常数;考虑,其中包含所有的取值,是一个有限实数集合;公式(1.4)给出了的取值约束,如果当前第k个信道正在服务数据型任务,即成立,则该信道不能再去服务其他任务,即;上述目标问题是一个具有高维状态和行动空间以及时变约束条件的马尔科夫决策过
程,其中状态空间为,包含三个变量,定义为,,,行动空间为;其中,表示第n行第k列的元素,表示第n行第k列的元素;;。3.根据权利要求2所述的一种基于分层策略的异构任务调度方法,其特征在于:所述步骤S2包括以下子步骤:S201.搭建第一层策略模块,包含K个完全相同的深度强化学习模块,即DRL模块, 其中第k个模块称为DRL
k
;每一个DRL模块包含一个评估行动网络,一个评估价值网络,一个目标行动网络,一个目标价值网络和一个经历缓存模块;第一层策略模块的搭建包括以下子步骤:S2011.搭建DRL
k
模块的行动网络:评估行动网络的输入是,输出是一个整数,记为;其中,,表示中第k列元素构成...

【专利技术属性】
技术研发人员:黄川崔曙光李然
申请(专利权)人:香港中文大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1