一种基于分层策略的异构任务调度方法技术

技术编号：34574310 阅读：29 留言：0更新日期：2022-08-17 13:06

本发明专利技术公开了一种基于分层策略的异构任务调度方法，包括以下步骤：S1.构建异构任务调度模型并确定调度的目标问题；S2.构建基于分层策略的异构任务调度的离线学习模型：第一层策略模块，包含K个完全相同的深度强化学习模块，即DRL模块,其中第k个模块称为DRLk；每一个DRL模块包含一个评估行动网络，一个评估价值网络，一个目标行动网络，一个目标价值网络和一个经历缓存模块，第二层策略模块的输入为，输出为；S3.进行离线训练得到成熟的模型；S4.对训练得到的模型进行在线应用，实现异构任务调度。本发明专利技术提供的异构任务调度方法，适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程，有效实现了异构任务的联合调度。有效实现了异构任务的联合调度。有效实现了异构任务的联合调度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分层策略的异构任务调度方法

[0001]本专利技术涉及任务驱动下的通信传输，特别是涉及一种基于分层策略的异构任务调度方法。

技术介绍

[0002]近些年来，任务驱动下的通信传输成为了物联网领域的焦点。任务类型包括但不限于以信息年龄（Age of information, AoI）为优化目标的时新型任务和以吞吐量为目标的数据型任务。相比基于预先划分信道资源这种传统调度方式，以信道资源共享为基础的联合调度算法能更好地迎合异构任务驱动通信的需求并极大地提升物联网的综合能效，但是，目前而言该问题是一个马尔科夫决策过程（Markov decision process, MDP），并且存在高维状态和行动空间以及时变约束条件，并没有一个高效的解决方法，能够实现高维状态和行动空间以及时变约束条件下的异构任务调度。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足，提供一种基于分层策略的异构任务调度方法，适用于存在高维状态和行动空间以及时变约束条件的马尔科夫决策过程，有效实现了异构任务的联合调度。/>[0004]本专本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分层策略的异构任务调度方法，其特征在于：包括以下步骤：S1.构建异构任务调度模型并确定调度的目标问题；所述的异构任务调度模型包括：设一个物联网系统中，有一个基站采用K个上行信道服务异构的两种任务，包括M个时新型任务和N个数据型任务；其中，第k个信道在第t个时隙选择服务的任务编号记为：如果，代表该信道在第t个时隙不会开启任何设备的数据传输；如果，代表该信道在第t个时隙开始服务第个时新型任务；如果，代表该信道在第t个时隙开始服务第个数据型任务；考虑服务一次第n个数据型任务需要占用信道个时隙，信道在被占用期间不能服务其他任务；用表征第k个信道在第t个时隙因为服务第n个数据型任务而被占用的情况：如果第k个信道在第t个时隙没有在服务第n个数据型任务，那么；否则，等于第k个信道距离服务完第n个数据型任务的剩余时隙数，也就是第k个信道被释放的时间；S2.构建基于分层策略的异构任务调度的离线学习模型；S3.进行离线训练得到成熟的模型；S4.对训练得到的模型进行在线应用，实现异构任务调度。2.根据权利要求1所述的一种基于分层策略的异构任务调度方法，其特征在于：步骤S1中所述确定调度的目标问题包括：设优化目标有两个，第一个是时新型任务对应的信息年龄惩罚函数，其中是第m个时新型任务的信息年龄；第二个是数据型任务的吞吐量，其中第n个数据型任务在第t个时隙于第k个信道上产生的吞吐量为其中，为第k个信道的带宽，为基站端的信噪比，为第n个数据型任务在第t个时隙被第k个信道服务时对应的信道增益；吞吐量当第k个信道在第t个时隙开始服务或正在服务第n个数据型任务时才存在，目标问题总结为：正在服务第n个数据型任务时才存在，目标问题总结为：其中在x大于 0的时候等于1，在x不大于0的时候等于0；同时，上述目标问题的解需要满足以下限制条件：需要满足以下限制条件：
（1.1）（1.2）（1.3）（1.4）其中，公式（1.1）为的更新方法，包括以下两种情况：一、如果至少有一个信道在第t个时隙服务了第m个时新型任务，即，那么时新型任务数据送达基站的概率为，此时；其中为单个信道在一个时隙内成功服务第m个时新型任务的概率；在x等于m的时候等于1，否则等于0；同时，时新型任务数据没有送达基站的概率为，此时；二、如果没有信道在第t个时隙服务了第m个时新型任务，即，则；公式（1.2）为的更新方法，包括三种情况：一、如果当前第k个信道正在服务第n个数据型任务，即，则在下个时隙，第k个信道的释放时间减少一个时隙；二、如果当前第k个信道准备开始服务第n个数据型任务，即，则在下个时隙，第k个信道的释放时间为；三、如果当前第k个信道没有在服务也不准备服务第n个数据型任务，则的值为0；公式（1.3）为的更新方法，考虑具有平稳性和各态历经性，所以（1.3）成立，其中是一个常数；考虑，其中包含所有的取值，是一个有限实数集合；公式（1.4）给出了的取值约束，如果当前第k个信道正在服务数据型任务，即成立，则该信道不能再去服务其他任务，即；上述目标问题是一个具有高维状态和行动空间以及时变约束条件的马尔科夫决策过
程，其中状态空间为，包含三个变量，定义为，，，行动空间为；其中，表示第n行第k列的元素，表示第n行第k列的元素；；。3.根据权利要求2所述的一种基于分层策略的异构任务调度方法，其特征在于：所述步骤S2包括以下子步骤：S201.搭建第一层策略模块，包含K个完全相同的深度强化学习模块，即DRL模块, 其中第k个模块称为DRL
k
；每一个DRL模块包含一个评估行动网络，一个评估价值网络，一个目标行动网络，一个目标价值网络和一个经历缓存模块；第一层策略模块的搭建包括以下子步骤：S2011.搭建DRL
k
模块的行动网络：评估行动网络的输入是，输出是一个整数，记为；其中，，表示中第k列元素构成...

【专利技术属性】
技术研发人员：黄川，崔曙光，李然，
申请(专利权)人：香港中文大学深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人