一种面向应急场景的空地网络分布式资源调度方法技术

技术编号：39256258 阅读：13 留言：0更新日期：2023-10-30 12:07

本发明专利技术公开了一种面向应急场景的空地网络分布式卸载决策和资源调度方法，该方法针对应急灾害场景，构建由无人机和应急救援车辆用户构成的空地一体化物联网，考虑计算密集型和时延敏感型业务的需求，以最小化系统总时延为目标构造优化问题，之后设计了一种改进的对决深度双Q网络算法求解优化问题，该算法在深度双Q网络的基础上，结合了对决网络，并引入优先经验回放机制，加快网络训练的收敛速度。本发明专利技术使用的ID3QN算法可以在满足时延和功率等约束的条件下，最小化系统的时间成本，有效解决应急场景中车辆用户的卸载决策、信道和功率分配的联合优化问题。配的联合优化问题。配的联合优化问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向应急场景的空地网络分布式资源调度方法

[0001]本专利技术涉及空地一体化物联网领域，特别涉及一种面向应急场景的基于改进的对决深度双Q网络的空地网络分布式卸载决策与资源优化方法。

技术介绍

[0002]应急灾害场景要求现场救援通信和计算设施具有更高的机动性、可靠性和灵活性。尽管在应急场景中部署多接入边缘计算(Multi
‑
access Edge Computing，MEC)可以缓解物联网(Internet ofThings，IoT)设备计算资源有限的问题。然而，应急场景中提前部署的MEC存在不灵活和服务不均的问题，预设的基站也容易被毁无法提供服务，传统地面网络无法满足应急场景中快速响应的需求。针对这种情况，空地一体化物联网将发挥关键作用，提供辅助和补充地面系统的支持。第三代合作伙伴计划(The Third Generation Partnership Proiect，3GPP)已将非地面网络(Non
‑
Terrestrial Networks，NTN)视为5G的一个新特征，NTN旨在为全球提供无线接入服务，超出空间的限制。无人机(Unmanned Aerial Vehicles，UAV)具有低成本和机动灵活等优势，被广泛应用于无线通信领域。作为空中计算平台，UAV可以辅助边缘计算，特别适用于高密度的公共应急场景。
[0003]此外，由于各种随机因素和非线性因素的存在，无线通信系统通常难以准确建模，即使能够建模，模型和算法也会变得复杂，无法满足实时响应的需求。而具备强...

【技术保护点】

【技术特征摘要】
1.一种面向应急场景的，基于改进的对决深度双Q网络(Improved dueling double deep Q network，ID3QN)的空地网络分布式卸载决策与资源优化方法，其特征在于，包括步骤如下：步骤1：构建由无人机和应急救援车辆用户组成的空地一体化物联网系统模型；步骤2：描述系统的通信和计算模型，并基于该模型以最小化系统时延为目标构造优化问题；步骤3：采用分布式资源分配方法，根据优化问题构建深度强化学习模型，设置对决深度双Q网络(Dueling double deep Q network，D3QN)关键参数；步骤4：在D3QN中引入优先经验回放机制，加快训练的收敛速度，改善系统性能；步骤5：设计ID3QN训练算法，并进行DRL模型的训练；步骤6：在执行阶段，利用训练好的ID3QN模型，得到最优的用户发射功率和信道分配策略；进一步的，所述步骤3包括如下具体步骤：步骤3
‑
1：将应急车辆用户(Emergency vehicle users，EVUs)视为智能体，对于每一个智能体n，在每个时间步t首先通过本地观察，从状态空间中获取当前状态s
t
(n)，状态空间由EVU的计算任务信息当前信道状态信息UAV状态信息F
t
，以及训练回合数e和ε
‑
贪心算法中的随机探索变量ε组成，即步骤3
‑
2：之后，每个智能体通过状态
‑
动作价值函数Q
π
(s
t
(n)，a
t
(n))获得策略π，并从动作空间中选择动作a
t
(n)，每个智能体动作空间由卸载策略子信道和发射功率P
tn
的选择组成，表示为其中，指示智能体的计算位置，如果智能体选择在本地计算则不会进入训练阶段；如果EVU选择了UAV m进行计算卸载，就会从子信道集C
m
中选择一个子信道；发射功率P
tn
限制在4个级别，即[23，10，5，0]dBm，则智能体的联合动作空间表示为步骤3
‑
3：基于所有智能体的动作选择，环境转换为一个新的状态S
t+1
，所有智能体共享一个全局的奖励，定义每一个智能体在t时的单步奖励函数为r
t
＝C
‑
T
total
(4)其中C是一个常数，用于调整r
t
以便训练，T
total
表示系统总时延；步骤3
‑
4：为了找到最大化整体回报的最佳策略，必须考虑当前和未来的回报，所以回报定义为累积折扣奖励R
t
，其中，表示折扣因子，表示更加注重未来的奖励，而表示更加注重当前的奖励；
步骤3
‑
5：基于值的深度强化学习利用神经网络的非线性接近能力近似Q
*
(s
t
，a
t
)＝max
π
Q
π
(s
t
，a
t
)，然后根据最优动作值函数选择最优动作；在D3QN算法中，使用参数为θ
t
的神经网络来更好地估计最优动作值函数，即Q
*
(S
t
，A
t
；θ
t
)≈max
π
Q
π
(S
t
，A
t
)；步骤3
‑

【专利技术属性】
技术研发人员：程梦倩，宋晓勤，雷磊，李楠，张莉涓，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人