System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的多无人机协同辅助通信优化方法技术_技高网
当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于深度强化学习的多无人机协同辅助通信优化方法技术

技术编号:41130099 阅读:2 留言:0更新日期:2024-04-30 17:59
本发明专利技术涉及一种基于深度强化学习的多无人机协同辅助通信优化方法,包括:对地面用户以及无人机的状态信息进行二维场景重建;构建无人机组实时总功耗数学模型;构建探索激励模块;建立σ个相同结构的深度强化学习网络;建立基于单调值函数分解的混合网络,输入所有的无人机个体Q函数,组成无人机总体价值Q函数,得到最大化无人机系统吞吐量和最小化能耗的联合飞行路径。本发明专利技术增强了无人机在训练初始阶段对环境的主动探索效,有效提高了整体训练效果,并结合建立的优先经验回放池有效提高了模型对样本的利用率;通过训练多无人机的总体Q函数,在帮助无人机规划出最佳路径以减少能耗的同时,能够更好地满足地面用户通信质量需求。

【技术实现步骤摘要】

本专利技术涉及深度强化学习及无人机通信,尤其是一种基于深度强化学习的多无人机协同辅助通信优化方法


技术介绍

1、近年来,随着航空技术和自动化技术的飞速发展,无人机凭借其卓越的机动性、低成本和便捷的操作特点,在军事、农业、交通、公共管理等多个领域都得到了广泛的应用。通过在无人机上安装小型通信设备,它们可以充当中继节点,为地面用户提供通信服务。同时,作为移动基站,无人机能够采集地面无线传感网络的数据。通过优化无人机的轨迹,可以最大化地对地面设备进行数据收集。

2、目前,无人机辅助无线通信已成为研究的热点,涉及多个方向,包括缓存网络、无线传感器网络、异构蜂窝网络、大规模多输入多输出、设备到设备通信以及灾难通信。然而,在面对用户分布广泛且分散的情况下,独立的单一无人机显得力不从心,难以满足地面用户的通信需求。因此,有必要深入研究多架无人机协同进行通信辅助的方案。

3、ruijin ding等人在《trajectory design and access control for air-groundcoordinated communications system with multiagent deep reinforcementlearning》中提出了一种基于maddpg的agpamaddpg算法来协调uav和gu,为了处理混合动作空间,ag-pamaddpg将gu的离散动作转换为连续概率分布,并从分布中采样动作。数值结果表明,ag-pamaddpg在网络吞吐量和gu公平性方面优于分布式dqn算法,以及仅优化gu访问控制的ac-pamaddpg。对于无人机轨迹设计和功率分配的联合优化问题,r.zhong等人在《multi-agent reinforcement learning in noma-aided uav networks for cellularoffloading》提出了一种多智能体mdqn算法来学习这样的策略。仿真结果表明,在多智能体场景下,所提出的mdqn比基准传统dqn具有更快的收敛速度。此外,通过利用mdqn设计3d轨迹,整个网络的总和率能够分别比采用圆形轨迹和2d轨迹的方法获得142%和56%的增益。然而,mdqn的集中训练可能会产生大量用于收集无人机经验的通信开销。

4、然而,基于现有研究,仍面临一些挑战:一是对全局场景信息的样本利用效率有限,对无人机的飞行路径规划指导有限;二是需要考虑无人机的能耗来设计节能轨迹策略。


技术实现思路

1、为解决对全局场景信息的样本利用效率有限、需要考虑无人机的能耗来设计节能轨迹策略的问题,本专利技术的目的在于提供一种提高对样本的利用率,在帮助无人机规划出最佳路径以减少能耗的同时,能够更好地满足地面用户通信质量需求的基于深度强化学习的多无人机协同辅助通信优化方法。

2、为实现上述目的,本专利技术采用了以下技术方案:一种基于深度强化学习的多无人机协同辅助通信优化方法,该方法包括下列顺序的步骤:

3、(1)对地面用户以及无人机的状态信息进行二维场景重建,得到场景观测信息;

4、(2)构建无人机组实时总功耗数学模型,为无人机训练建立优化目标;

5、(3)构建探索激励模块,无人机加载探索激励模块,探索激励模块输出探索新环境获得的奖励值,通过探索新环境获得的奖励值得到全面的场景观测信息;

6、(4)建立σ个相同结构的深度强化学习网络作为每架无人机的决策模型,无人机的决策模型的输入为全面的场景观测信息,无人机的决策模型的输出为无人机个体q函数;

7、(5)建立基于单调值函数分解的混合网络,将所有的无人机个体q函数输入混合网络,混合网络将所有的无人机个体q函数组成无人机总体价值q函数,通过损失函数训练无人机总体价值q函数,根据无人机组实时总功耗数学模型,得到最大化无人机系统吞吐量和最小化能耗的联合飞行路径。

8、所述步骤(1)具体是指:将地面用户以及无人机的状态信息重建为二维场景,通过矩阵拟合,记二维场景为k*k的等距网格,在等距网格的中心位置处随机分布有φ个地面用户以恒定速度νφ在二维场景中随机移动,将地面用户随机移动的方向离散为上、下、左、右、左上、左下、右上、右下、静止,σ架无人机以固定的高度η在场景上方飞行,无人机的编号为u1,u2…uσ,无人机的飞行速度恒定为νuav,无人机飞行的方向离散为上、下、左、右、左上、左下、右上、右下、静止;无人机为半径为d的圆形区域内的地面用户提供通信服务,将无人机的整个任务周期离散成多个单独的时间间隙,每个时间间隙的持续时间为t,当前系统时刻为t,t=t1,t2…tend,tend为无人机任务终止状态的时刻;将t时刻包含地面用户信息的场景矩阵,与每一个无人机的包含位置及通信范围的矩阵,分别进行堆叠,得出σ个无人机的场景观测信息。

9、所述步骤(2)具体是指:无人机组实时总功耗数学模型包括无人机飞行功耗模型和无人机与地面用户的通信功耗模型:

10、

11、式中,表示t时刻无人机实时总功耗,表示t时刻无人机的飞行功耗,为t时刻无人机与地面用户的通信功耗,emax为无人机电池容量所允许的最大功耗;

12、无人机飞行功耗模型的表达式如下:

13、

14、式中,pv表示无人机的飞行移动功率,νuav表示无人机的飞行速度,表示t时刻无人机在场景中的横坐标投影,表示t-1时刻无人机在场景中的横坐标投影;表示t时刻无人机在场景中的纵坐标投影,表示t-1时刻无人机在场景中的纵坐标投影;

15、无人机与地面用户的通信功耗模型的表达式为:

16、

17、式中,vr表示无人机在通信过程中传输信号的速率;e表示通信过程的传输效率;c表示无人机与地面用户通信过程中的带宽限制;d表示无人机与地面用户之间的通信距离,其数学表达式如下所示;

18、

19、式中,h表示无人机距离水平地面的高度,表示t时刻地面用户在场景中的横坐标,表示t时刻地面用户在场景中的纵坐标。

20、所述步骤(3)具体是指:所述探索激励模块采用孪生网络,所述孪生网络为卷积神经网络;所述探索激励模块的输入为当前t时刻所获得的场景观测信息和已存入历史场景信息池中的过去场景观测信息,输出为一个特征相似度,采用三元组损失函数作为损失函数的更新方式,再将所述探索激励模块的输出与奖励信号整合;所述探索激励模块的孪生网络包括共享卷积层、全链接层和度量学习层:

21、共享卷积层:两个输入图像分别通过相同的卷积层进行特征提取,以共享权重,这一层的目标是捕捉输入图像的共享特征,输入维度为(k,k,2*(σ+1));

22、全链接层:全链接层的节点数1024,采用relu函数作为激活函数;

23、度量学习层:计算两次输入的场景观测信息在特征空间中的相似度,采用欧氏距离或余弦相似度来度量两次输入的场景观测信息之间的差异度;

<本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:该方法包括下列顺序的步骤:

2.根据权利要求1所述的基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:所述步骤(1)具体是指:将地面用户以及无人机的状态信息重建为二维场景,通过矩阵拟合,记二维场景为K*K的等距网格,在等距网格的中心位置处随机分布有Φ个地面用户以恒定速度vφ在二维场景中随机移动,将地面用户随机移动的方向离散为上、下、左、右、左上、左下、右上、右下、静止,σ架无人机以固定的高度H在场景上方飞行,无人机的编号为u1,u2…uσ,无人机的飞行速度恒定为vuav,无人机飞行的方向离散为上、下、左、右、左上、左下、右上、右下、静止;无人机为半径为D的圆形区域内的地面用户提供通信服务,将无人机的整个任务周期离散成多个单独的时间间隙,每个时间间隙的持续时间为t,当前系统时刻为T,T=t1,t2…tend,tend为无人机任务终止状态的时刻;将t时刻包含地面用户信息的场景矩阵,与每一个无人机的包含位置及通信范围的矩阵,分别进行堆叠,得出σ个无人机的场景观测信息。

3.根据权利要求1所述的基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:所述步骤(2)具体是指:无人机组实时总功耗数学模型包括无人机飞行功耗模型和无人机与地面用户的通信功耗模型:

4.根据权利要求1所述的基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:所述步骤(3)具体是指:所述探索激励模块采用孪生网络,所述孪生网络为卷积神经网络;所述探索激励模块的输入为当前t时刻所获得的场景观测信息和已存入历史场景信息池中的过去场景观测信息,输出为一个特征相似度,采用三元组损失函数作为损失函数的更新方式,再将所述探索激励模块的输出与奖励信号整合;所述探索激励模块的孪生网络包括共享卷积层、全链接层和度量学习层:

5.根据权利要求1所述的基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:在步骤(3)中,所述探索激励模块输出的数学表达式为:

6.根据权利要求1所述的基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:所述步骤(4)具体包括以下步骤:

7.根据权利要求1所述的基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:所述步骤(5)中建立基于单调值函数分解的混合网络具体包括以下步骤:

...

【技术特征摘要】

1.一种基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:该方法包括下列顺序的步骤:

2.根据权利要求1所述的基于深度强化学习的多无人机协同辅助通信优化方法,其特征在于:所述步骤(1)具体是指:将地面用户以及无人机的状态信息重建为二维场景,通过矩阵拟合,记二维场景为k*k的等距网格,在等距网格的中心位置处随机分布有φ个地面用户以恒定速度vφ在二维场景中随机移动,将地面用户随机移动的方向离散为上、下、左、右、左上、左下、右上、右下、静止,σ架无人机以固定的高度h在场景上方飞行,无人机的编号为u1,u2…uσ,无人机的飞行速度恒定为vuav,无人机飞行的方向离散为上、下、左、右、左上、左下、右上、右下、静止;无人机为半径为d的圆形区域内的地面用户提供通信服务,将无人机的整个任务周期离散成多个单独的时间间隙,每个时间间隙的持续时间为t,当前系统时刻为t,t=t1,t2…tend,tend为无人机任务终止状态的时刻;将t时刻包含地面用户信息的场景矩阵,与每一个无人机的包含位置及通信范围的矩阵,分别进行堆叠,得出σ个无人机的场景观测信息。

3.根据权利要求1所述的基于深度强化学习的多无人机协...

【专利技术属性】
技术研发人员:王辛迪汪晶
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1