一种基于深度强化学习的MEC已卸载任务资源分配方法组成比例

技术编号:33434410 阅读:11 留言:0更新日期:2022-05-19 00:23
本发明专利技术属于边缘计算技术领域,具体是涉及一种基于深度强化学习的MEC已卸载任务计算资源分配方法。通过构建深度神经网络,将资源分配状态窗口与已卸载任务集合队列作为网络的输入,通过神经网络的前向传播输出每个动作a对应的Q值,根据资源分配策略π选择动作a从而与环境产生交互使当前状态s转换为下一状态s

【技术实现步骤摘要】
一种基于深度强化学习的MEC已卸载任务资源分配方法


[0001]本专利技术属于边缘计算
,具体是涉及一种基于深度强化学习的MEC已卸载任务计算资源分配方法。

技术介绍

[0002]作为一种新兴技术,移动边缘计算(MEC)通过将云计算服务从集中式云扩展至网络边缘,具有在靠近终端设备的无线接入网(RAN)中提供云计算服务的能力。与移动云计算(MCC)相比,MEC使得各式各样的应用以及服务能在移动边缘网络中运行,不仅大大降低了整个业务延迟,而且极大程度上地缓解了由于数据交换所造成的移动核心网络的拥塞。因此,在MEC系统部署应用程序和服务,通过将任务请求数据计算卸载到MEC边缘服务器执行,能够显著地提升用户体验。
[0003]通过利用移动边缘计算(MEC),物联网设备产生的大量数据可以在网络边缘进行处理和分析。然而,MEC系统通常只有有限的虚拟资源,这些资源由物联网边缘应用程序共享和竞争。不同的物联网边缘应用可能需要不同数量的资源来保证服务质量,一个重要的挑战是如何协调每个应用程序的有限资源以实现高资源利用率,因此,寻找一种最优的分配方案来高效合理地利用有限的资源成为相关领域研究人员所需克服的难点之一。

技术实现思路

[0004]本专利技术的目的是,针对单边缘服务器计算资源的不足,提出一种基于深度强化学习的卸载任务资源分配方案。其特点是构建深度神经网络,将资源分配状态窗口与已卸载任务集合队列作为网络的输入,通过神经网络的前向传播输出每个动作a对应的Q值,根据资源分配策略π选择动作a从而与环境产生交互使当前状态s转换为下一状态s

,并获得奖励函数r,在训练阶段,神经网络会依据网络最大动作价值函数和当前动作价值—函数计算损失函数,通过最小化损失函数对网络参数权重进行更新,使得网络输出动作价值最大化,最终使得DQN算法曲线收敛,进而确定最优的计算资源分配方案π
*
。本专利技术旨在确保更多的任务请求数据能够在MEC系统中尽快得到处理,从而达到最小的系统总开销,该方法包括如下步骤:
[0005]步骤1,获取已卸载请求任务集合的状态信息,包含传输延迟,数据量大小(单位计算资源执行任务所需时延),任务优先级。
[0006]步骤2,对卸载任务资源分配方案进行问题描述,构建马尔可夫数学模型。
[0007]步骤3,利用DQN算法,构建评价Q网络和目标Q网络来近似估计动作—价值组的Q值。
[0008]步骤4,通过最小化损失函数对网络不断地进行迭代更新,直至其收敛。
[0009]进一步,步骤1中所含信息为其中,l
j
表示一个包含第j个卸载任务信息的三维列向量(j∈{1,2,

,n
o
}),因此,l
j
可以表示为[l
j1
,l
j2
,l
j3
]T
,其具体信息如下:
[0010]①
l
j1
表示卸载任务的传输延迟,即任务从本地传输到边缘服务器所需时延
[0011]②
l
j2
为任务数据量大小,表示单位计算单元处理该任务的执行时间
[0012]③
l
j3
表示任务的优先级别,优先级越高,则代表卸载任务就越亟需处理。
[0013]进一步,步骤2通过对卸载任务资源分配方案进行问题描述,记录单位时间窗口的卸载任务信息集合为L,假设边缘服务器拥有的计算资源数为n
c
,通过将单位时间窗口分割为n
τ
个时间片。任务信息L从当前的时间片开始分配计算资源,并展望未来n
τ
个时间片,一个时间片的持续时间称为一个时间单位,相当于一个时间步长的持续时间,时间单位的具体值取决于实际应用,例如几十毫秒。定义C中的每个计算单元表示一个时间片中的一个计算资源,是资源分配的最小单位。对于某一计算单元表示i
τ
个时间片的第i
c
个计算资源的分配状态,其中i
τ
∈{1,2,

,n
τ
}。另外,计算单元的取值被设置为{1,

1},代表两种不同的状态,具体如下所示:
[0014]表示计算单元处于可分配状态。
[0015]表示该计算单元所占有的计算资源已被占有,即已经完成分配,此时已处于非空闲状态,不可继续分配。
[0016]最初,边缘节点的所有计算资源处于空闲可分配状态,然后,将请求的计算单元按需分配给任务集合队列L中等待的作业,分配完成后,计算单元的状态变为“已分配”,即
[0017]通过问题描述,可以得出解决问题的难点在于确定最优的计算资源分配方案,以保证更多的任务请求数据能够在MEC系统中尽快得到处理,从而达到最小的系统总开销。可以将该问题转换为马尔可夫模型,其具体步骤为:
[0018]2.1建立马尔可夫状态空间s={L,C}
[0019]其中,L为单位时间窗口内的同批次卸载任务集合队列,具体表示为一个n
o
行3列的矩阵;C为边缘节点的计算资源分配状态窗口,具体表示为一个n
c
行n
τ
列矩阵。
[0020]2.2建立马尔可夫动作空间
[0021]其中{δ
τ

c
}表示从资源分配窗口内第δ
τ
时间片开始,连续向任务集合队列L第一个作业l1分配第δ
c
位单位计算资源,直至作业完成(即执行完l1中的数据量l
j2
),表示不对第一个作业分配计算单元,直接转发到远端物联网云进行处理。
[0022]2.3状态转换分析
[0023]状态转换是状态和动作对的函数(s,a),例如对第t个决策epoch而言,通过从动作空间选择行为a∈A使某一状态s={L,C}转换为下一继承状态s

={L

,C

},具体表现如下:
[0024][0025][0026]由于直接将任务转发到远端物联网云进行处理,所以其资源分配状态窗口保持不变,即C=C


[0027]2.4建立马尔可夫奖励函数r,由于动作的不同取值,所产生的奖励函数也会不同,具体定义如下:
[0028][0029]其中,d表示将任务从MEC系统发送到物联网云,然后处理它所花费的总时间,为了简化,将其定义为一个常量。根据奖励函数,我们可以进一步得到收益,其定义为长期每个决策期所产生的累计收益之和,即第t个决策epoch的收益G
(t)
为:
[0030][0031]其中,γ(0<γ<1)是折扣率,R
(k)
,S
(k)
,A
(k)
分别表示第k个决策epoch时的奖本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的MEC已卸载任务资源分配方法,获取单位时间窗口的卸载任务集合队列L,基于边缘节点的计算资源分配状态窗口C;定义边缘服务器拥有的计算资源数为n
c
,通过将单位时间窗口分割为n
τ
个时间片,令L从当前的时间片开始分配计算资源,并展望未来n
τ
个时间片,一个时间片的持续时间称为一个时间单位,定义C中的每个计算单元表示一个时间片中的一个计算资源,是资源分配的最小单位;对于某一计算单元表示i
τ
个时间片的第i
c
个计算资源的分配状态,其中i
τ
∈{1,2,

,n
τ
},将计算单元的取值设置为{1,

1},代表两种不同的状态:表示计算单元处于可分配状态;表示该计算单元所占有的计算资源已被占有,即已经完成分配,此时已处于非空闲状态,不可继续分配;其特征在于,所述资源分配方法是以获得最优的计算资源分配方案为目标,即保证更多的任务请求数据能够在MEC系统中尽快得到处理,从而达到最小的系统总开销;基于目标采用深度强化学习的方式进行卸载任务资源分配,深度强化学习的具体实现方式为基于马尔可夫模型:状态设计:建立马尔可夫状态空间s={L,C},其中,L具体为一个n
o
行3列的矩阵;C具体为一个n
c
行n
τ
列矩阵;动作空间:建立马尔可夫动作空间其中,{δ
τ
,...

【专利技术属性】
技术研发人员:张瑛刘颖青曾瑞雪
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1