当前位置: 首页 > 专利查询>东南大学专利>正文

基于深度强化学习的联合计算迁移和无人机轨迹优化方法技术

技术编号:39007169 阅读:11 留言:0更新日期:2023-10-07 10:38
本发明专利技术公开了一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,属于无人机辅助车联网的边缘计算领域,考虑无人机辅助车辆移动边缘计算的场景,利用深度强化学习优化策略优化每一个时隙每个无人机选择服务的用户以及任务卸载比率,无人机飞行角度和飞行速度,进而减少系统时延,同时提高无人机服务车辆的公平性。本发明专利技术使用多智能体双延迟深度确定性策略梯度算法可以有效解决计算迁移和无人机轨迹的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。作空间的优化中表现稳定。作空间的优化中表现稳定。

【技术实现步骤摘要】
基于深度强化学习的联合计算迁移和无人机轨迹优化方法


[0001]本专利技术涉及无人机辅助车联网的边缘计算
,特别涉及一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法。

技术介绍

[0002]随着无人驾驶技术的不断发展,车辆需要处理越来越多的计算任务,例如图像识别、路径规划、数据处理等等。然而,车辆的硬件资源是有限的,无法满足这些需求。为了解决这个问题,研究人员提出了一种新的思路,即将一部分计算任务卸载到其他计算节点上。
[0003]在应急场景中,无人机可以提供边缘计算服务,以支持车辆的通信和数据处理需求。无人机拥有更强大的计算能力和更大的存储空间,能够承担一部分车辆的计算任务。同时,无人机具有高度灵活性和机动性,能够随时随地为车辆提供支持。在这种模式下,车辆将计算任务分配给无人机,无人机处理完毕后再将结果返回给车辆,从而实现车辆和无人机之间的协同工作。然而现有研究大多考虑了无人机的能耗,系统时延的优化问题,较少考虑无人机服务车辆的公平性,尤其是缺少联合优化时延和无人机服务车辆的公平性的技术。

技术实现思路

[0004]本专利技术提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,针对无人机辅助车辆边缘计算的场景,考虑时延和无人机服务车辆用户的公平性,通过联合优化计算迁移决策和无人机轨迹,实现了在复杂度和性能之间取得了很好的平衡,无人机可以高效地协助车辆完成计算任务,提高车辆数据处理能力,为应急响应提供更高效、更安全和更稳定的服务。
[0005]本专利技术实施例提供一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,包括以下步骤:
[0006]步骤1:构建无人机辅助移动边缘计算模型,其中,所述无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算;
[0007]步骤2:建立包括M个车辆和U架无人机的计算迁移和轨迹优化模型;
[0008]步骤3:利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息;
[0009]步骤4:采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型;
[0010]步骤5:利用多智能体双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient,TD3)对所述多智能体深度强化学习模型进行优化;
[0011]步骤6:根据优化后的所述多智能体深度强化学习模型,得到最优的计算迁移策略和无人机轨迹。
[0012]在本专利技术的一个实施例中,在步骤4中,采用分布式的资源分配方法,同时考虑时
延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型,包括:
[0013]步骤4

1,无人机在时隙n能观测到的信息除自身的位置信息c
u,n
外,还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数,记为:
[0014][0015]无人机的观测表示为:
[0016]o
u,n
={c
u,n
,k
u,n
}
[0017]系统的状态空间O为所有无人机观测结果的集合,包含所有无人机的位置,所有车辆的位置、任务以及服务次数信息,记为:
[0018][0019]步骤4

2,定义动作空间A包括无人机在当前时隙n服务的车辆m
n
以及任务卸载比例Δ
m,u,n
,自身的飞行角度β
u,n
和飞行速度v
u,n
,动作可记为:
[0020]a
u,n
={m
n

m,u,n

u,n
,v
u,n
}
[0021]步骤4

3,定义奖励函数R,考虑时延和无人机服务车辆的公平性,无人机在时隙n执行动作后奖励函数表示为:
[0022]r
u,n
=ηξ
n
+∑
m∈M
α
m,u,n
(T
m,n,local

T
m,n
)
[0023]其中,η为权重系数,T
m,n,local
为车辆m在时隙n全部本地计算任务的本地时延,T
m,n
为无人机在时隙n执行动作后的车辆m在时隙n的任务计算时延;
[0024]累计折扣奖励为:
[0025][0026]其中,δ∈[0,1]是折扣因子;
[0027]步骤4

3,依据建立好的系统的状态空间O,动作空间A和奖励函数R,建立多智能体协作的深度强化学习模型。
[0028]本专利技术实施例提出的基于深度强化学习的联合计算迁移和无人机轨迹优化方法,具有以下有益效果:
[0029](1)无人机利用深度强化学习优化策略获得最优的无人机服务车辆,服务车辆的任务卸载比率,无人机飞行角度,无人机飞行速度。
[0030](2)无人机通过选择合适的无人机服务车辆,服务用户的任务卸载比率,无人机飞行角度,无人机飞行速度,最小化系统时延且提高无人机服务车辆的公平性。
[0031](3)使用MATD算法可以有效解决无人机辅助车辆边缘计算的无人机服务车辆选择,服务车辆的任务卸载比率,无人机飞行角度,无人机飞行速度的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。
[0032](4)在无人机辅助车辆边缘计算的场景中,本专利技术提出的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法在最小化系统时延同时提高无人机服务车辆用户的公平性方面是优越的。
[0033]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0034]本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0035]图1为根据本专利技术实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的流程图;
[0036]图2为根据本专利技术实施例提供的无人机辅助移动边缘计算模型示意图;
[0037]图3为根据本专利技术实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法的执行过程。
具体实施方式
[0038]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0039]图1为根据本专利技术实施例提供的一种基于深度强化学习的联合计算迁移和无人机轨迹优化方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的联合计算迁移和无人机轨迹优化方法,其特征在于,包括以下步骤:步骤1:构建无人机辅助移动边缘计算模型,其中,所述无人机辅助移动边缘计算模型允许车辆的任务同时在本地计算和部分卸载到无人机计算;步骤2:建立包括M个车辆和U架无人机的计算迁移和轨迹优化模型;步骤3:利用无人机获取每个时隙内无人机的位置信息、车辆的位置信息和相应的任务信息;步骤4:采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型;步骤5:利用多智能体双延迟深度确定性策略梯度算法对所述多智能体深度强化学习模型进行优化;步骤6:根据优化后的所述多智能体深度强化学习模型,得到最优的计算迁移策略和无人机轨迹。2.根据权利要求1所述的方法,其特征在于,在步骤4中,采用分布式的资源分配方法,同时考虑时延和无人机服务车辆的公平性构建包括状态空间O,动作空间A,奖励函数R的多智能体深度强化学习模型,包括:步骤4

1,无人机u在时隙n能观测到的信息除自身的位置信息c
u,n
外,还有观测范围内K个车辆当前的位置信息、任务信息以及服务次数,记为:其中,为无人机集合,为车辆集合,为时隙集合,α
m,u,n'
为无人机和车辆之间的卸载决策变量,α
m,u,n
∈{0,1},当α
m,u,n
=1时表示车辆m在时隙n的计算任务由无人机u辅助计算;当α
m,u,n
=0时表示车辆m在时隙n的计算任务只在本地计算,w
m,n
为车辆m在时隙n的坐标,S
m,n
为无人机在每个时隙获取的任务信息;无人机的观测表示为:o
u,n<...

【专利技术属性】
技术研发人员:王书墨宋铁成胡静夏玮玮燕锋沈连丰
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1