应急无人机群轨迹调控方法及相关设备技术

技术编号:33766754 阅读:130 留言:0更新日期:2022-06-12 14:17
本申请提供一种应急无人机群轨迹调控方法及相关设备,应用于应急无人机通信网络系统,应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个基站均配置联邦强化学习智能体和经验回放样本池,每个联邦强化学习智能体均包括深度神经网络。该方法包括:构建应急无人机通信网络模型;获取基站对应的状态信息,并将状态信息输入至联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机;通过调取存入基站对应的经验回放样本池中的样本数据对深度神经网络进行训练,输出目标无人机当前时刻的动作信息,并根据动作信息调整目标无人机的飞行轨迹,并进入下一时刻进行飞行轨迹的调整。可以与环境实时交互,适应动态环境变化。适应动态环境变化。适应动态环境变化。

【技术实现步骤摘要】
应急无人机群轨迹调控方法及相关设备


[0001]本申请涉及无人机控制
,尤其涉及一种应急无人机群轨迹调控方法及相关设备。

技术介绍

[0002]在应急通信系统中,无人机空中基站快速部署作为灾区用户与外部网络的中继节点,以空对地的通信方式高效地恢复灾区通信。由于无人机飞行的动态性及无人机群之间的相对位置会极大地影响无人机应急网络的通信性能,因此应急无人机群的飞行轨迹需要合理的调控。
[0003]基于上述情况,应急通信网络的动态性导致使得传统优化技术不能获取未来时刻环境的准确信息以精准调控无人机群的轨迹。强化学习方法能够利用大量飞行数据进行自我学习,拟合未知环境并应对其动态性。但现有强化学习方法仍面临维度爆炸、收敛慢等问题,并且在应急网络中由于通信开销、安全性等原因,难以集中式调控无人机群的飞行轨迹。

技术实现思路

[0004]有鉴于此,本申请的目的在于提出一种应急无人机群轨迹调控方法及相关设备,用以解决或部分解决上述技术问题。
[0005]基于上述目的,本申请的第一方面提供了一种应急无人机群轨迹调控方法,应用于应急无人机通信网络系统,所述应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个所述基站均配置联邦强化学习智能体和经验回放样本池,每个所述联邦强化学习智能体均包括深度神经网络;所述方法包括:
[0006]根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型;
[0007]响应于确定任一用户终端激活,将激活的所述用户终端连接至距离最近的基站,并基于所述应急无人机通信网络模型获取当前时刻距离最近的基站对应的状态信息,并将所述状态信息输入至距离最近的基站对应的所述联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机;
[0008]所述联邦强化学习智能体根据接收到的所述状态信息基于所述应急无人机通信网络模型通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,通过经训练的所述深度神经网络输出所述目标无人机当前时刻的动作信息,并根据当前时刻的所述动作信息调整所述目标无人机的飞行轨迹,并进入下一时刻重新对所述目标无人机进行飞行轨迹的优化调整;
[0009]响应于确定全部所述用户终端完成恢复通信服务任务,停止优化调整每个所述无人机的飞行轨迹。
[0010]从上面所述可以看出,本申请提供的应急无人机群轨迹调控方法及相关设备,通
过每个无人机设有的基站配置的经验回归放样池对样本数据进行存储,通过调取样本数据对联邦强化学习智能体进行优化训练,通过经验回放样本池对联邦强化学习智能体进行学习训练,使其具备从累积的飞行数据中进行自主学习的能力,以此实现分布式学习、分布式执行,能够解决由智能体数目增加引起的维度爆炸危机,此外联邦强化学习智能体应用的联邦强化学习算法融合了联邦学习算法和多智能体深度强化学习算法,破除无人机之间的数据孤岛,提升算法的性能并加快算法的收敛速度。可在动态的现实场景下,得到最优的飞行轨迹调整,具有较强的环境适应能力、泛化能力和更快的算法收敛速度。
附图说明
[0011]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1为本申请实施例的应急无人机群轨迹调控方法的流程图;
[0013]图2为本申请实施例的应急无人机通信网络系统的示意图;
[0014]图3为本申请实施例的应急无人机群轨迹调控方法的结构框图;
[0015]图4为本申请实施例的应急无人机群轨迹调控装置的结构示意图;
[0016]图5为本申请实施例的电子设备的示意图。
具体实施方式
[0017]为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0018]需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0019]相关技术中进行无人机轨迹优化时,需要针对优化目标问题建立目标方程,将无人机轨迹、网络环境等相关变量作为确定参数带入目标方程,优化方程中无人机的轨迹变量来最大化目标。然而实际场景下的目标方程的形式非常复杂,并且需要从任务开始到任务结束所有时刻的网络环境信息。因为通信网络环境的动态性,在实际场景中目标方程中的参数难以全部准确获得。另一方面,当通信需求具有变化时,原优化算法得到的无人机轨迹便无法适用,需要重新训练,计算复杂。
[0020]另外,相关技术中采用的深度强化学习算法的无人机轨迹调控,在面对现实中复杂的通信网络环境,无人机与无人机之间的干扰难以消除,通过奖励函数不能使无人机网络中的多智能体相互解耦。而多智能体强化学习算法通过集中式学习的框架,需要所有无
人机回传状态、动作、奖励等信息至集中式学习中心,训练全局的状态价值函数,这一过程会产生应急通信网络难以处理的巨大通信开销,并存在信息安全隐患。并且状态价值函数的输入维度会随无人机的数目正比增加,存在维度爆炸的潜在危机,算法收敛速度与效果也会随着无人机的数目增加而减缓。
[0021]本申请的实施例提供一种应急无人机群轨迹调控方法,通过联邦强化学习智能体从累积的飞行数据中进行自主学习,可在动态的应急通信场景下,以分布式算法智能联合调控飞行速度大小与方向,归纳出频谱效率最优的轨迹,能够破除无人机之间的数据孤岛,提升算法的性能并加快算法的收敛速度,同时还能够解决由联邦强化学习智能体数目增加引起的维度爆炸危机,并大幅度降低通信开销,提升无人机群轨迹调控的可行性。
[0022]如图1所示,本实施例的方法应用于应急无人机通信网络系统,所述应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个所述基站均配置联邦强化学习智能体和经验回放样本池,每个所述联邦强化学习智能体均包括深度神经网络;所述方法包括:
[0023]步骤101,根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型。
[0024]在该步骤中,如图2所示,应急无人机通信网络系统是多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应急无人机群轨迹调控方法,其特征在于,应用于应急无人机通信网络系统,所述应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个所述基站均配置联邦强化学习智能体和经验回放样本池,每个所述联邦强化学习智能体均包括深度神经网络;所述方法包括:根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型;响应于确定任一用户终端激活,将激活的所述用户终端连接至距离最近的基站,并基于所述应急无人机通信网络模型获取当前时刻距离最近的基站对应的状态信息,并将所述状态信息输入至距离最近的基站对应的所述联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机;所述联邦强化学习智能体根据接收到的所述状态信息基于所述应急无人机通信网络模型通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,通过经训练的所述深度神经网络输出所述目标无人机当前时刻的动作信息,并根据当前时刻的所述动作信息调整所述目标无人机的飞行轨迹,并进入下一时刻重新对所述目标无人机进行飞行轨迹的优化调整;响应于确定全部所述用户终端完成恢复通信服务任务,停止优化调整每个所述无人机的飞行轨迹。2.根据权利要求1所述的方法,其特征在于,所述存入距离最近的基站对应的所述经验回放样本池中的样本数据,具体包括:基于所述应急无人机通信网络模型和所述目标无人机设有的所述基站当前时刻的所述状态信息、所述目标无人机当前时刻的动作信息和所述目标无人机的邻近无人机的动作信息,得到回报奖励信息;将所述当前时刻的动作信息作为共享通信开销,并传输至所述邻近无人机;响应于确定邻近所述无人机接收到所述共享通信开销,将距离最近的基站当前时刻的所述状态信息、所述目标无人机当前时刻所述动作信息、所述邻近无人机当前时刻的动作信息和当前时刻所述回报奖励信息作为所述样本数据,并存入所述目标无人机设有的所述基站对应的所述经验回放样本池。3.根据权利要求1所述的方法,其特征在于,所述用户终端包括周期性激活用户终端和/或随机性激活用户终端;所述应急无人机通信网络模型包括下列至少之一:平均路径损耗模型、信号与干扰加噪声比模型、频谱利用效率模型、状态信息模型、动作信息模型、回报奖励模型、策略模型、样本数据模型和所述随机性激活用户终端的激活状态模型。4.根据权利要求3所述的方法,其特征在于,所述深度神经网络包括第一深度神经网络、第二深度神经网络、第三深度神经网络和第四深度神经网络,所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络和所述第四深度神经网络通过初始状态的神经网络经过学习训练得到;所述通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,具体包括:从所述经验回放样本池中调取所述样本数据;
将所述样本数据中的所述状态信息输入所述第一深度神经网络,输出所述动作信息,并根据所述动作信息得到状态行为值;将所述样本数据中的所述状态信息、所述动作信息、所述邻近无人机的动作信息输入所述第二深度神经网络,通过所述第二深度神经网络对所述状态行为值进行拟合,得到第一状态行为估计值;获取所述第三深度神经网络的参数和所述第四深度神经网络的参数,并基于所述第三深度神经网络的参数和所述第四深度神经网络的参数进行函数处理得到所述状态行为值的时序差分估计值;基于所述时序差分估计值得到时序差分误差函数,并对所述时序差分误差函数进行最小化计算,得到经过优化的所述第二深度神经网络的参数,基于所述经过优化的所述第二深度神经网络的参数,得到经过优化的所述第二深度神经网络;通过优化的所述第二深度神经网络输出第一状态行为估计值对所述第一深度神经网络进行优化,得到经过优化的所述第一深度神经网络的参数,基于所述经过优化的所述第一深度神经网络的参数,得到经过优化的所述第一深度神经网络;基于经过优化的所述第一深度神经网络的参数和经过优化的所述第二深度神经网络的参数得到经过优化的所述深度神经网络的参数,基于所述经过优化的所述深度神经网络的参数得到经过优化的所述深度神经网络。5.根据权利要求4所述的方法,其特征在于,所述激活状态模型:所述激活状态模型:其中,和表示为所述激活状态模型的参数;T表示为每个所述周期性激活用户终端激活的周期时间;t表示为属于[0,T]的任一时间;所述平均路径损耗模型:其中,f
c
表示为中心频率;表示为t时刻所述目标无人机k的位置;表示为t时刻所述用户终端u的位置;表示为t时刻所述目标无人机k与所述用户终端u的欧式距离;c表示为光速;η
LoS
表示为视距无线传输链路的附加空间传播损耗;基于所述平均路径耗损模型得到所述信号与干扰加噪声比模型,其中,所述信号与干扰加噪声比模型具体为:
其中,P
k
表示为所述目标无人机设有的所述基站对所述用户终端的下行通信链路...

【专利技术属性】
技术研发人员:许文俊吴思雷王凤玉袁彩霞高晖李国军
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1