一种面向应急场景的空地网络分布式资源调度方法技术

技术编号:39256258 阅读:13 留言:0更新日期:2023-10-30 12:07
本发明专利技术公开了一种面向应急场景的空地网络分布式卸载决策和资源调度方法,该方法针对应急灾害场景,构建由无人机和应急救援车辆用户构成的空地一体化物联网,考虑计算密集型和时延敏感型业务的需求,以最小化系统总时延为目标构造优化问题,之后设计了一种改进的对决深度双Q网络算法求解优化问题,该算法在深度双Q网络的基础上,结合了对决网络,并引入优先经验回放机制,加快网络训练的收敛速度。本发明专利技术使用的ID3QN算法可以在满足时延和功率等约束的条件下,最小化系统的时间成本,有效解决应急场景中车辆用户的卸载决策、信道和功率分配的联合优化问题。配的联合优化问题。配的联合优化问题。

【技术实现步骤摘要】
一种面向应急场景的空地网络分布式资源调度方法


[0001]本专利技术涉及空地一体化物联网领域,特别涉及一种面向应急场景的基于改进的对决深度双Q网络的空地网络分布式卸载决策与资源优化方法。

技术介绍

[0002]应急灾害场景要求现场救援通信和计算设施具有更高的机动性、可靠性和灵活性。尽管在应急场景中部署多接入边缘计算(Multi

access Edge Computing,MEC)可以缓解物联网(Internet ofThings,IoT)设备计算资源有限的问题。然而,应急场景中提前部署的MEC存在不灵活和服务不均的问题,预设的基站也容易被毁无法提供服务,传统地面网络无法满足应急场景中快速响应的需求。针对这种情况,空地一体化物联网将发挥关键作用,提供辅助和补充地面系统的支持。第三代合作伙伴计划(The Third Generation Partnership Proiect,3GPP)已将非地面网络(Non

Terrestrial Networks,NTN)视为5G的一个新特征,NTN旨在为全球提供无线接入服务,超出空间的限制。无人机(Unmanned Aerial Vehicles,UAV)具有低成本和机动灵活等优势,被广泛应用于无线通信领域。作为空中计算平台,UAV可以辅助边缘计算,特别适用于高密度的公共应急场景。
[0003]此外,由于各种随机因素和非线性因素的存在,无线通信系统通常难以准确建模,即使能够建模,模型和算法也会变得复杂,无法满足实时响应的需求。而具备强大数据处理能力和表达能力,以及较低推理复杂度的人工智能(Artificial Intelligence,AI)技术能够提供技术支持,尤其是深度强化学习(Deep Reinforcement Learning,DRL),已经被广泛应用于物联网中的资源分配和计算卸载问题。

技术实现思路

[0004]本专利技术的目的是面向应急救援场景,构建无人机辅助的的空地一体化物联网架构,考虑计算密集型和时延敏感型业务的需求,提出一种改进的对决深度双Q网络(Improved dueling double deep Q network,ID3QN)算法进行卸载决策和资源优化,以降低系统总时延。为了实现该目的,本专利技术所采用的步骤是:
[0005]步骤1:构建由无人机和应急救援车辆用户组成的空地一体化物联网系统模型;
[0006]步骤2:描述系统的通信和计算模型,并基于该模型以最小化系统时延为目标构造优化问题;
[0007]步骤3:采用分布式资源分配方法,根据优化问题构建深度强化学习模型,设置对决深度双Q网络(Dueling double deep Q network,D3QN)关键参数;
[0008]步骤4:在D3QN中引入优先经验回放机制,加快训练的收敛速度,改善系统性能;
[0009]步骤5:设计ID3QN训练算法,并进行DRL模型的训练;
[0010]步骤6:在执行阶段,利用训练好的ID3QN模型,得到最优的用户发射功率和信道分配策略;
[0011]进一步的,所述步骤1包括如下具体步骤:
[0012]步骤1

1:考虑一个灾害发生区域内的微型小区,其中有M个无人机配备计算资源,作为空中MEC节点,它们事先进行轨迹优化,并根据用户的情况优先选择飞行到所需区域附近,UAV的集合表示为
[0013]步骤1

2:在地面上,有N个应急车辆用户(Emergency vehicle users,EVUs)需要执行计算密集和延迟敏感的任务,每个EVU会发生移动,其集合表示为假设每一个EVU在每个时隙内只有一个计算任务,表示为其中,d
n
表示输入的计算数据量;i
n
表示完成计算任务所需的CPU转数;表示任务n最大可以容忍的时延;当EVU没有足够的计算资源时,将选择UAV进行计算卸载;
[0014]进一步的,所述步骤2包括如下具体步骤:
[0015]步骤2

1:定义来指示第n个EVU计算任务执行的位置,当时,表示EVUn的计算任务在本地执行,表示任务在UAVm上执行,反之,则表示EVUn没有选择UAVm完成计算卸载任务,假设每个EVU只能选择一个UAV用于计算卸载;
[0016]步骤2

2:如果EVUn选择UAVm进行计算卸载,则EVU和UAV之间V2U链路的信干噪比γ
n,m
可以表示为
[0017][0018]其中,P[n]和σ2分别表示EVUn的发射功率和加性高斯白噪声的功率;表示EVUn和UAVm之间的信道系数;I
n
表示EVUn来自其它使用相同子波段的V2U链路的干扰,可通过下式计算
[0019][0020]其中,表示使用相同V2U链路的EVUn

和UAVm之间的信道系数,与使用相同的定义,将式中的n改为n


[0021]步骤2

3:因为EVU和UAV之间的信道是自由空间的视线(Line of sight,LOS),所以信道系数与路径损耗的影响有关,可以表示为
[0022][0023]其中,是用距离表示的路径损耗;设V2U链路的发送端和接收端的位置坐标分别为(x
n
,y
n
,z
n
),(x
m
,y
m
,z
m
),则EVUn和UAVm之间的欧式距离可以表示为
[0024][0025]步骤2

4:则EVUn与UAVm之间的传输速率可以表示为
[0026]R
n,m
=Blog2(1+γ
n,m
)
ꢀꢀꢀ
(5)
[0027]其中B表示V2U链路的带宽;
[0028]步骤2

5:则所有EVU执行任务时,总的传输时延可以表示为
[0029][0030]其中,表示EVUn选择UAVm后的传输时延;
[0031]步骤2

6:所有EVU执行任务总的计算时延可以表示为
[0032][0033]其中,表示分配给计算任务的计算资源;表示可以获得本地计算资源执行计算任务;m>0时,表示UAV每秒钟分配给EVUn的CPU转数;表示EVUn选择UAVm执行任务所需的计算时间;
[0034]步骤2

7:则所有系统总的时间成本可以表示为
[0035][0036]步骤2

8:基于上述定义,以最小化系统总时延为目标,优化问题表示为
[0037][0038]其中,分别表示卸载策略、信道和用户发射功率的分配策略,表示每个EVU最大的发射功率,表示UAVm的最大的计算资源;约束C1表示任务的最大可容忍延迟时间限制;约束C2,C3和C本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向应急场景的,基于改进的对决深度双Q网络(Improved dueling double deep Q network,ID3QN)的空地网络分布式卸载决策与资源优化方法,其特征在于,包括步骤如下:步骤1:构建由无人机和应急救援车辆用户组成的空地一体化物联网系统模型;步骤2:描述系统的通信和计算模型,并基于该模型以最小化系统时延为目标构造优化问题;步骤3:采用分布式资源分配方法,根据优化问题构建深度强化学习模型,设置对决深度双Q网络(Dueling double deep Q network,D3QN)关键参数;步骤4:在D3QN中引入优先经验回放机制,加快训练的收敛速度,改善系统性能;步骤5:设计ID3QN训练算法,并进行DRL模型的训练;步骤6:在执行阶段,利用训练好的ID3QN模型,得到最优的用户发射功率和信道分配策略;进一步的,所述步骤3包括如下具体步骤:步骤3

1:将应急车辆用户(Emergency vehicle users,EVUs)视为智能体,对于每一个智能体n,在每个时间步t首先通过本地观察,从状态空间中获取当前状态s
t
(n),状态空间由EVU的计算任务信息当前信道状态信息UAV状态信息F
t
,以及训练回合数e和ε

贪心算法中的随机探索变量ε组成,即步骤3

2:之后,每个智能体通过状态

动作价值函数Q
π
(s
t
(n),a
t
(n))获得策略π,并从动作空间中选择动作a
t
(n),每个智能体动作空间由卸载策略子信道和发射功率P
tn
的选择组成,表示为其中,指示智能体的计算位置,如果智能体选择在本地计算则不会进入训练阶段;如果EVU选择了UAV m进行计算卸载,就会从子信道集C
m
中选择一个子信道;发射功率P
tn
限制在4个级别,即[23,10,5,0]dBm,则智能体的联合动作空间表示为步骤3

3:基于所有智能体的动作选择,环境转换为一个新的状态S
t+1
,所有智能体共享一个全局的奖励,定义每一个智能体在t时的单步奖励函数为r
t
=C

T
total
(4)其中C是一个常数,用于调整r
t
以便训练,T
total
表示系统总时延;步骤3

4:为了找到最大化整体回报的最佳策略,必须考虑当前和未来的回报,所以回报定义为累积折扣奖励R
t
,其中,表示折扣因子,表示更加注重未来的奖励,而表示更加注重当前的奖励;
步骤3

5:基于值的深度强化学习利用神经网络的非线性接近能力近似Q
*
(s
t
,a
t
)=max
π
Q
π
(s
t
,a
t
),然后根据最优动作值函数选择最优动作;在D3QN算法中,使用参数为θ
t
的神经网络来更好地估计最优动作值函数,即Q
*
(S
t
,A
t
;θ
t
)≈max
π
Q
π
(S
t
,A
t
);步骤3

【专利技术属性】
技术研发人员:程梦倩宋晓勤雷磊李楠张莉涓
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1