【技术实现步骤摘要】
应急无人机群轨迹调控方法及相关设备
[0001]本申请涉及无人机控制
,尤其涉及一种应急无人机群轨迹调控方法及相关设备。
技术介绍
[0002]在应急通信系统中,无人机空中基站快速部署作为灾区用户与外部网络的中继节点,以空对地的通信方式高效地恢复灾区通信。由于无人机飞行的动态性及无人机群之间的相对位置会极大地影响无人机应急网络的通信性能,因此应急无人机群的飞行轨迹需要合理的调控。
[0003]基于上述情况,应急通信网络的动态性导致使得传统优化技术不能获取未来时刻环境的准确信息以精准调控无人机群的轨迹。强化学习方法能够利用大量飞行数据进行自我学习,拟合未知环境并应对其动态性。但现有强化学习方法仍面临维度爆炸、收敛慢等问题,并且在应急网络中由于通信开销、安全性等原因,难以集中式调控无人机群的飞行轨迹。
技术实现思路
[0004]有鉴于此,本申请的目的在于提出一种应急无人机群轨迹调控方法及相关设备,用以解决或部分解决上述技术问题。
[0005]基于上述目的,本申请的第一方面提供了一种应急无人机群轨迹调控方法,应用于应急无人机通信网络系统,所述应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个所述基站均配置联邦强化学习智能体和经验回放样本池,每个所述联邦强化学习智能体均包括深度神经网络;所述方法包括:
[0006]根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型;
[0007]响应于确定任一用户终端 ...
【技术保护点】
【技术特征摘要】
1.一种应急无人机群轨迹调控方法,其特征在于,应用于应急无人机通信网络系统,所述应急无人机通信网络系统包括多个设有基站的无人机和多个用户终端,每个所述基站均配置联邦强化学习智能体和经验回放样本池,每个所述联邦强化学习智能体均包括深度神经网络;所述方法包括:根据多个设有基站的所述无人机和多个所述用户终端构建与所述应急无人机通信网络系统对应的应急无人机通信网络模型;响应于确定任一用户终端激活,将激活的所述用户终端连接至距离最近的基站,并基于所述应急无人机通信网络模型获取当前时刻距离最近的基站对应的状态信息,并将所述状态信息输入至距离最近的基站对应的所述联邦强化学习智能体,其中,设有距离最近的基站的无人机为目标无人机;所述联邦强化学习智能体根据接收到的所述状态信息基于所述应急无人机通信网络模型通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,通过经训练的所述深度神经网络输出所述目标无人机当前时刻的动作信息,并根据当前时刻的所述动作信息调整所述目标无人机的飞行轨迹,并进入下一时刻重新对所述目标无人机进行飞行轨迹的优化调整;响应于确定全部所述用户终端完成恢复通信服务任务,停止优化调整每个所述无人机的飞行轨迹。2.根据权利要求1所述的方法,其特征在于,所述存入距离最近的基站对应的所述经验回放样本池中的样本数据,具体包括:基于所述应急无人机通信网络模型和所述目标无人机设有的所述基站当前时刻的所述状态信息、所述目标无人机当前时刻的动作信息和所述目标无人机的邻近无人机的动作信息,得到回报奖励信息;将所述当前时刻的动作信息作为共享通信开销,并传输至所述邻近无人机;响应于确定邻近所述无人机接收到所述共享通信开销,将距离最近的基站当前时刻的所述状态信息、所述目标无人机当前时刻所述动作信息、所述邻近无人机当前时刻的动作信息和当前时刻所述回报奖励信息作为所述样本数据,并存入所述目标无人机设有的所述基站对应的所述经验回放样本池。3.根据权利要求1所述的方法,其特征在于,所述用户终端包括周期性激活用户终端和/或随机性激活用户终端;所述应急无人机通信网络模型包括下列至少之一:平均路径损耗模型、信号与干扰加噪声比模型、频谱利用效率模型、状态信息模型、动作信息模型、回报奖励模型、策略模型、样本数据模型和所述随机性激活用户终端的激活状态模型。4.根据权利要求3所述的方法,其特征在于,所述深度神经网络包括第一深度神经网络、第二深度神经网络、第三深度神经网络和第四深度神经网络,所述第一深度神经网络、所述第二深度神经网络、所述第三深度神经网络和所述第四深度神经网络通过初始状态的神经网络经过学习训练得到;所述通过调取存入距离最近的基站对应的所述经验回放样本池中的样本数据对所述深度神经网络进行训练,具体包括:从所述经验回放样本池中调取所述样本数据;
将所述样本数据中的所述状态信息输入所述第一深度神经网络,输出所述动作信息,并根据所述动作信息得到状态行为值;将所述样本数据中的所述状态信息、所述动作信息、所述邻近无人机的动作信息输入所述第二深度神经网络,通过所述第二深度神经网络对所述状态行为值进行拟合,得到第一状态行为估计值;获取所述第三深度神经网络的参数和所述第四深度神经网络的参数,并基于所述第三深度神经网络的参数和所述第四深度神经网络的参数进行函数处理得到所述状态行为值的时序差分估计值;基于所述时序差分估计值得到时序差分误差函数,并对所述时序差分误差函数进行最小化计算,得到经过优化的所述第二深度神经网络的参数,基于所述经过优化的所述第二深度神经网络的参数,得到经过优化的所述第二深度神经网络;通过优化的所述第二深度神经网络输出第一状态行为估计值对所述第一深度神经网络进行优化,得到经过优化的所述第一深度神经网络的参数,基于所述经过优化的所述第一深度神经网络的参数,得到经过优化的所述第一深度神经网络;基于经过优化的所述第一深度神经网络的参数和经过优化的所述第二深度神经网络的参数得到经过优化的所述深度神经网络的参数,基于所述经过优化的所述深度神经网络的参数得到经过优化的所述深度神经网络。5.根据权利要求4所述的方法,其特征在于,所述激活状态模型:所述激活状态模型:其中,和表示为所述激活状态模型的参数;T表示为每个所述周期性激活用户终端激活的周期时间;t表示为属于[0,T]的任一时间;所述平均路径损耗模型:其中,f
c
表示为中心频率;表示为t时刻所述目标无人机k的位置;表示为t时刻所述用户终端u的位置;表示为t时刻所述目标无人机k与所述用户终端u的欧式距离;c表示为光速;η
LoS
表示为视距无线传输链路的附加空间传播损耗;基于所述平均路径耗损模型得到所述信号与干扰加噪声比模型,其中,所述信号与干扰加噪声比模型具体为:
其中,P
k
表示为所述目标无人机设有的所述基站对所述用户终端的下行通信链路...
【专利技术属性】
技术研发人员:许文俊,吴思雷,王凤玉,袁彩霞,高晖,李国军,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。