System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及机器人智能决策与控制,尤其涉及一种基于通信学习的多无人机轨迹优化和功率控制方法。
技术介绍
1、无人机作为空中基站(unmanned aerial vehicle as aerial base stations,uav-abs)的应用引起了学术界和工业界的广泛关注。相较于地面固定无线基站,uav-abs具有以下的优点:首先,其三维移动性能够带来更高的视角,从而为地面用户提供更高可能性的视距无线传输链路,进而提升通信质量。其次,对于灾后地区如洪水、地震,或者短暂通信需求的热点地区如演唱会、演出场所,uav-abs是一个理想的解决方案。最后,无人机组网更加灵活,且所需链路的成本更低。此外,以无人机作为空中基站的网络正在成为下一代移动通信网络系统中不可或缺的组成部分。
2、uav-abs的部署仍然面临许多挑战,包括通信范围、带宽和能量消耗的限制。uav-abs需要在几乎每个时隙移动,以靠近地面用户提供高质量的无线服务。然而,过多的不必要移动会导致能量消耗增加,从而降低通信质量。此外,我们需要控制无人机的功率分配以实现通信质量和干扰管理之间的权衡。因此,我们迫切需要一个精心设计的策略,以帮助多个uav-abs自适应地进行功率分配并优化飞行轨迹。
3、传统的数学方法将上述非凸问题转化为凸问题进行求解,然而这种方法会牺牲精度,并且无法处理地面用户的移动性。现有的方法主要利用多智能体强化学习算法,如多智能体深度确定性策略梯度算法进行求解,但是其无法实现uav-abs之间的直接交流和信息共享。这种限制可能导
技术实现思路
1、针对现有技术的不足,本专利技术提出一种基于通信学习的多无人机轨迹优化和功率控制方法。
2、本专利技术的技术方案如下:一种基于通信学习的多无人机轨迹优化和功率控制方法,包括以下步骤:
3、1)搭建多无人机辅助无线通信系统,包括无人机、地面用户和训练中心;定义运动模型、通信模型和能耗模型,构建联合优化目标函数;
4、2)将步骤1)中的联合优化目标函数转化为马尔科夫博弈,确定观测、动作和奖赏,设计多智能体强化学习算法用于求解联合优化目标函数问题;所述多智能体强化学习算法包括通信演员神经网络nn1,目标演员神经网络nn2,集中注意力评论家神经网络nn3和目标评论家神经网络nn4;
5、3)初始化无人机位置、地面用户的位置;初始化经验缓冲区和多智能体强化学习算法中的神经网络参数,包括通信演员神经网络参数,目标演员神经网络参数,集中注意力评论家神经网络参数和目标评论家神经网络参数;
6、4)训练开始,初始化记忆存储设备;对每一个无人机而言,其通信演员神经网络nn1从记忆存储设备读取通信信息,并结合本地观测信息对进行编码、学习并更新;更新信息被存储到记忆存储设备中;
7、所述更新信息获取步骤如下,首先对本地观测信息进行编码,其中表示全连接神经网络;
8、对本地观测信息进行编码后,无人机中的通信演员神经网络nn1从记忆存储设备中读取经验并将其与之前编码信息相结合进行学习,公式表示为;其中,门控单元是通过对级联信息向量线性映射获取,其中表示激活函数,是仅由门控单元提取时空信息的上下文向量,公式表示为,是线性映射的可学习向量;为无人机的学习信息;
9、无人机有选择地更新学习到的信息并将其存储在记忆存储设备中;先定义两个门控单元和,其中和为可学习的参数;候选更新信息表示为,其中为可学习的参数,最后更新信息表示为;
10、5)通信演员神经网络根据本地观测信息、通信信息和记忆存储设备中存储的更新信息做出动作,动作包括无人机轴速度、y轴速度和发射功率;
11、6)当所有无人机给出轴速度、y轴速度和发射功率后,训练中心接收到环境反馈,包括奖赏和下一时隙的状态;训练中心将所有无人机状态、下一时隙的状态、动作、通信信息和奖赏封装为经验,存储到训练中心的经验缓冲区中;
12、7)当经验缓冲区中存储的经验超过一定量时,训练中心抽取批量经验来更新神经网络参数;集中注意力评论家网络nn3利用批量经验计算当前动作值,并通过最小化联合回归函数来更新参数;通信演员神经网络nn1通过策略梯度下降的方式更新参数;软更新目标演员神经网络nn2和目标评论家网络nn4;软更新目标评论家神经网络nn4参数,为超参数,软更新目标演员神经网络nn2参数,;
13、8)无人机利用自身部署的训练好的通信演员神经网络nn1输出轨迹决策结果和功率控制决策结果。
14、所述多无人机辅助无线通信系统在多无人机无线通信场景下, 个无人机被部署为空中基站,为个地面用户提供通信服务;定义为无人机集,定义为地面用户集;多无人机辅助无线通信系统在等长的个连续时隙上运行,其中定义为时隙集;
15、定义无人机的运动模型;地面用户的三维坐标定义为,无人机的三维坐标是,其中为无人机的飞行高度;无人机在时隙的坐标表示为,
16、 (1)
17、其中表示无人机在时隙的运行速度,为环境影响因子,表示一个时隙的持续时间,表示为无人机能达到的最大速度;
18、定义无人机通信模型;无人机通信模型同时考虑视距los和非视距nlos;无人机n和地面用户m之间出现视距los的概率表示为:
19、 (2)
20、出现nlos的概率为;其中a,b是取决于环境的常量,是无人机n和地面用户m之间的仰角,
21、 (3)
22、其中,表示无人机与用户的水平距离;无人机和地面用户的信道增益表示为:
23、 (4)
24、其中是路径损耗指数,是los的路径损耗,是nlos的路径损耗;定义为高斯白噪音,地面用户和无人机接收到的信号干扰加噪声比定义为:
25、 (5)
26、其中表示当前无人机的发射功率;表示为其他无人机的发射功率;在应用频分多址无线通信技术的情况下,地面用户的数据传输速率使用香农容量定理定义为:
27、 (6)
28、其中表示当前无人机范围内地面用户的数量;
29、定义能量消耗模型;无人机的能量消耗包括数据传输的通信能耗和移动过程中无人机的飞行能耗;为了简化分析,排除了无人机在起飞、着陆和悬停期间的能耗;定义为刀片功率,为刀片速度,无人机的飞行能耗表示为:
30、 (7)
31、数据传输的通信能耗表示为,表示无人机的额定发射功率;能量消耗模型表示为:
32、 (8)
33、定义联合优化目标函本文档来自技高网...
【技术保护点】
1.一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述多无人机辅助无线通信系统在多无人机无线通信场景下, 个无人机被部署为空中基站,为个地面用户提供通信服务;定义为无人机集,定义为地面用户集;多无人机辅助无线通信系统在等长的个连续时隙上运行,其中定义为时隙集;
3.根据权利要求2所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述马尔科夫博弈定义为,无人机通过选择动作、观测当前状态并在每个时隙获得实时奖赏,奖赏用于与环境交互;所有无人机的共同目标是通过选择最佳行动序列来最大化长期积累奖赏;
4.根据权利要求3所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述步骤5)中通信演员神经网络结合自身观测信息、学习信息和更新信息给出动作,其公式表示为,为通信演员神经网络NN1;所述通信演员神经网络NN1包括特征网络、动作网络和一系列线性变换;特征网络为一个三层的全连接神经网络,动作网络为一个两层的
5.根据权利要求4所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述步骤6)中训练中心获得奖赏以及下一个状态;定义状态集和通信经验集;将经验存储到经验缓冲区中,利用集中注意力评论家神经网络NN3计算动作值值;集中注意力评论家神经网络NN3架构如下:集中注意力评论家神经网络NN3的输入信息为所有无人机的状态和动作;利用多个全连接网络组成的线性层对输入信息进行编码,得到编码信息;其次利用多头注意力层来筛选信息,编码信息先被映射到三个可训练且共享的权重矩阵:查询、键和值,公式表示为:
6.根据权利要求5所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述步骤7)中通过策略梯度下降的方式更新参数:
...【技术特征摘要】
1.一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述多无人机辅助无线通信系统在多无人机无线通信场景下, 个无人机被部署为空中基站,为个地面用户提供通信服务;定义为无人机集,定义为地面用户集;多无人机辅助无线通信系统在等长的个连续时隙上运行,其中定义为时隙集;
3.根据权利要求2所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述马尔科夫博弈定义为,无人机通过选择动作、观测当前状态并在每个时隙获得实时奖赏,奖赏用于与环境交互;所有无人机的共同目标是通过选择最佳行动序列来最大化长期积累奖赏;
4.根据权利要求3所述的一种基于通信学习的多无人机轨迹优化和功率控制方法,其特征在于,所述步骤5)中通信演员神经网络结合自身观测信息、学习信息和更新信息给出动作,其公式表示为,为通信演员神经网络nn1;所述通信演员神经网络nn1包括特征网络、动作网络和一系列线性变换;特...
【专利技术属性】
技术研发人员:毕远国,袁梓梦,刘羽霏,刘雨衡,郑彤,樊彦伯,
申请(专利权)人:东北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。