一种稳定性约束引导的基于深度强化学习的去中心化动态卸载方法技术

技术编号：42665783 阅读：19 留言：0更新日期：2024-09-10 12:21

本发明专利技术涉及一种稳定性约束引导的基于深度强化学习的去中心化动态卸载方法。属于移动边缘计算领域，具体来说，本发明专利技术是在由一个边缘服务器和多个用户组成的边缘计算系统中，每个用户在任务列队受到稳定性约束的条件下基于深度强化学习算法根据与环境信息的交互独立的制定任务卸载策略，即卸载到边缘服务器的计算任务的比例。以解决任务密集型用户计算能力有限资源不足的问题。本发明专利技术通过引入用户任务列队稳定性约束后，再基于深度强化学习算法为用户制定最优的任务卸载决策，极大的减少了用户的计算成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于通信，尤其涉及一种稳定性约束引导的基于深度强化学习的去中心化动态卸载策略。

技术介绍

1、随着物联网的快速发展，越来越多的设备及传感器接入互联网，让它们能够通过网络互连，给我们的生活带来了极大的便利。与此同时，移动设备的增加催生出了多种多样的应用程序，随着数据量的不断增加，移动互联网业务呈爆炸式增长，为计算资源有限的终端带来沉重的计算负担。在这个背景下，许多设备需要实时响应，但物联网通常难以满足对实时和延迟敏感的设备的要求，这使得物联网带来的便利性面临着极大的威胁。

2、为了缓解移动计算能力的限制，移动边缘计算被认为是一种有前途的计算范式并且已经广泛应用。移动边缘计算被认为是b5g和6g网络的有前途的技术，其核心是将移动边缘计算服务器部署在无线接入网络的边缘(例如蜂窝基站)，使得边缘的服务器(例如基站)能够提供资源计算能力，方便移动用户将其计算工作量卸载到边缘计算服务器上，达到减少计算能源和时间成本的目的，进一步满足未来网络超高带宽和超低延迟的要求。

3、因此，本专利技术提出了一种稳定性约束引导的基于深度强化学习的去中心化动态卸载策略，用户根据环境信息独立的动态的制定卸载策略，避免了用户的缓列队冲突，降低了用户的长期平均计算成本。

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，提供一种稳定性约束引导的基于深度强化学习的去中心化动态卸载策略，用以避免了用户的缓列队冲突，降低了用户的长期平均总体计算成本。

2、本专利技术解决

3、一种稳定性约束引导的基于深度强化学习的去中心化动态卸载制定方法，定义了多用户的多输入多输出移动边缘计算系统，包括带有n个天线的基站、一台移动边缘计算服务器和一组单天线移动用户m＝{1,2,…,m}以及一些随机到来的独立的计算任务，每个用户的到达任务动态变化且互不干扰：所述方法包括如下步骤：

4、建立任务卸载模型，系统用户需要处理随机到达的任务，定义用户具体的特征状态，对用户特征状态进行稳定性约束，同时将长期优化问题转化为确定性优化，由用户的服务质量要求确定优化目标；

5、对构建的系统模型进行训练，将算法代理部署到每个用户处，根据用户的特征进行学习，模型的目标是最小化优化目标，通过不断训练迭代得到训练好的任务卸载模型；

6、利用训练好的模型制定任务卸载决策，初始化每个用户的状态作为输入，经过训练好的任务卸载模型得到最优的卸载策略输出。

7、进一步的，所述的建立任务卸载模型，定义每个用户都需要独立计算密集型任务，在系统中采用离散时间模型，将整个运行周期被划分为长度为τ0的连续时间帧，表示为t＝{0,1,...,t}，每个用户的特征状态表示为元组sm,t＝[bm(t),φm(t-1),hm(t)]，其中，bm(t)是用户，φm(t-1)是上一个时隙内用户与基站间的归一化信干噪比，hm(t)是用户用于上行链路传输的信号向量；

8、定义用户在进行卸载决策时，对用户任务到达的列队缓冲区长度bm(t)进行稳定性的约束，具体的，下一个时隙用户任务到达的列队缓冲区长度bm(t+1)与当前时隙用户任务到达的列队缓冲区长度bm(t)之间的差值有上界，表示为：

9、

10、其中保证列队缓冲区长度稳定，有效避免列队冲突，同时将长期优化问题cm转化为每个时隙内的确定性优化问题cm(t)，每个用户去中心化的动态学习卸载策略，独立于其他用户来进行决策选择动作am(t)＝[pl,m(t),po,m(t)]，其中，pl,m(t)表示为本地处理任务分配的功率，po,m(t)表示为用户分配给卸载到边缘服务器的任务的发射功率，即可以确定任务卸载的百分比。

11、进一步的，所述的对构建的系统模型进行训练，在ddpg等深度强化学习的框架下对任务卸载模型进行训练，定义户的特征状态sm,t＝[bm(t),φm(t-1),hm(t)]作为卸载模型的输入，将卸载策略am(t)＝[pl,m(t),po,m(t)]定义为动作空间输入，将引入用户任务到达的列队缓冲区长度稳定性约束的计算总成本的负值作为卸载模型的奖励，即模型优化的目标位最小化用户计算的总体成本，卸载模型动态的收集数据放到经验缓冲区，每次迭代从经验缓冲区随机采样抽样小批量样本，通过梯度下降的方式优化模型参数，从而最小化损失函数。卸载模型的经验缓冲区不断地进行更新。

12、进一步的，所述的利用训练好的模型制定任务卸载决策，首先对各个用户的特征状态sm,t＝[bm(t),φm(t-1),hm(t)]进行随机初始化，将其输入到训练好参数的卸载模型中，卸载模型对输入特征进行参数运算后输出到最优的卸载决策am(t)＝[pl,m(t),po,m(t)]，用户按照分配的功率进行相应的本地处理以及将任务卸载到边缘服务器。

13、本专利技术的优点和积极效果是：本专利技术构建了一个支持mimo的多用户mec系统，考虑在时变无线信道和任务数据随机到达的环境下，用户在无需先验信息的情况下，与系统环境进行交互，独立的学习动态计算卸载策略。提出了一种新的框架,引入了列队稳定性约束的同时用户基于深度强化学习独立的制定卸载策略，在长期列队稳定性的约束，保证系统长期稳定性，有效的避免了列队冲突减少任务处理时延，优化了用户的长期平均计算成本。

本文档来自技高网...

【技术保护点】

1.一种稳定性约束引导的基于深度强化学习的去中心化动态卸载方法，定义了多用户的多输入多输出移动边缘计算系统，包括带有N个天线的基站、一台移动边缘计算服务器和一组单天线移动用户M＝{1,2,...,M}以及一些随机到来的独立的计算任务，每个用户的到达任务动态变化且互不干扰：其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的稳定性约束引导的基于深度强化学习的去中心化动态卸载方法，其特征在于：所述的建立任务卸载模型，定义每个用户都需要独立计算密集型任务，在系统中采用离散时间模型，将整个运行周期被划分为长度为τ0的连续时间帧，表示为T＝{0,1,...,T}，每个用户的特征状态表示为元组sm,t＝[Bm(t),φm(t-1),hm(t)]，其中，Bm(t)是用户，φm(t-1)是上一个时隙内用户与基站间的归一化信干噪比，hm(t)是用户用于上行链路传输的信号向量；

3.根据权利要求1所述的稳定性约束引导的基于深度强化学习的去中心化动态卸载方法，其特征在于：所述的对构建的系统模型进行训练，在DDPG等深度强化学习的框架下对任务卸载模型进行训练，定义户的特征

4.根据权利要求1所述的稳定性约束引导的基于深度强化学习的去中心化动态卸载方法，其特征在于：所述的利用训练好的模型制定任务卸载决策，首先对各个用户的特征状态sm,t＝[Bm(t),φm(t-1),hm(t)]进行随机初始化，将其输入到训练好参数的卸载模型中，卸载模型对输入特征进行参数运算后输出到最优的卸载决策am(t)＝[pl,m(t),po,m(t)]，用户按照分配的功率进行相应的本地处理以及将任务卸载到边缘服务器。

...

【技术特征摘要】

1.一种稳定性约束引导的基于深度强化学习的去中心化动态卸载方法，定义了多用户的多输入多输出移动边缘计算系统，包括带有n个天线的基站、一台移动边缘计算服务器和一组单天线移动用户m＝{1,2,...,m}以及一些随机到来的独立的计算任务，每个用户的到达任务动态变化且互不干扰：其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的稳定性约束引导的基于深度强化学习的去中心化动态卸载方法，其特征在于：所述的建立任务卸载模型，定义每个用户都需要独立计算密集型任务，在系统中采用离散时间模型，将整个运行周期被划分为长度为τ0的连续时间帧，表示为t＝{0,1,...,t}，每个用户的特征状态表示为元组sm,t＝[bm(t),φm(t-1),hm(t)]，其中，bm(t)是用户，φm(t-1)是上一个时隙内用户与基站间的归一化信干噪比，hm(t)是用户用于上行链路传输的信号向量；

3.根据权利要求1所述的稳定性约束引导的基于深度强化学习的去中心化动态卸载方法，其特征在于：所述的对构建的系统模型进行训练，在ddpg等深...

【专利技术属性】
技术研发人员：章辉，王晶晶，李美锟，韩旭，于红德，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人