System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度强度学习的通信无人机轨迹优化控制方法技术_技高网

基于深度强度学习的通信无人机轨迹优化控制方法技术

技术编号:41186248 阅读:4 留言:0更新日期:2024-05-07 22:18
本发明专利技术公开了基于深度强度学习的通信无人机轨迹优化控制方法,具体步骤如下:S1:无人机开始服务前,无人机从基站起飞到达服务范围的几何中心点;S2:无人机下发雷达信号探测地面移动用户,接收到雷达回波解析得到用户坐标信息;S3:将用户过去几个时刻的坐标作为强化学习的初始状态输入训练好的SAC网络,SAC网络中的动作网络根据输入的初始状态从动作空间中选取对应的动作,根据选择的动作计算得到下一时隙用户的坐标信息,并更新状态信息。本发明专利技术采用SAC架构来训练网络实现对用户的移动追踪,降低导频开销,提升通信效率,并且采用深度展开网络优化波束赋形和无人机悬停位置,以较低的计算复杂度实现通信吞吐率的最大化。

【技术实现步骤摘要】

本专利技术涉及通信领域领域,具体涉及一种基于深度强度学习的通信无人机轨迹优化控制方法


技术介绍

1、近年来,无人机的飞速发展引起了社会各界的重视,在军事、通信及监测等方面有广泛应用。无人机凭借其灵活可操作性强,部署成本低等优势,无人机辅助通信被认为是无线通信场景下的一种有前景的方式并已应用于部分实际场景。传统蜂窝网络依赖固定的地面设施,尤其在5g场景下对基站数量的需求,在某些特定场景下不能为用户提供高质量服务,比如热点地区或者大型活动场所。无人机可以根据地面障碍物及用户的分布随时调整机身飞行高度和悬停位置,充当空中基站以实现更好的通信服务质量,是传统通信基站的一种可靠替代。一些传统基站难以覆盖的区域或地面基站被损坏的灾区,通过灵活部署无人机也可以实现高速率、低延迟的无线通信。在无人机通信中,目前现有技术中大多基于已知无人机和用户之间的信道状态信息的条件下联合优化无人机的发射功率和悬停位置,然而在实际通信过程中,地面用户的移动是随机且不可知的,这就会使得该某时间段内信号速率降低,降低通信效率。


技术实现思路

1、本专利技术的目的在于,提供基于深度强度学习的通信无人机轨迹优化控制方法。本专利技术采用sac架构来训练网络实现对用户的移动追踪,降低导频开销,提升通信效率,并且采用深度展开网络优化波束赋形和无人机悬停位置,以较低的计算复杂度实现通信吞吐率的最大化。

2、本专利技术的技术方案:基于深度强度学习的通信无人机轨迹优化控制方法,具体步骤如下:

3、s1:无人机开始服务前,无人机从基站起飞到达服务范围的几何中心点;

4、s2:无人机下发雷达信号探测地面移动用户,接收到雷达回波解析得到用户坐标信息;

5、s3:将用户过去几个时刻的坐标作为强化学习的初始状态输入训练好的sac网络,sac网络中的动作网络根据输入的初始状态从动作空间中选取对应的动作,根据选择的动作计算得到下一时隙用户的坐标信息,并更新状态信息;

6、s4:将sac网络输出的用户坐标信息输入波束赋形矩阵深度展开网络进行迭代优化波束赋形矩阵,无人机根据最优的波束赋形矩阵对将给用户发送的信息进行处理,实现和用户的通信;

7、s5:在一帧内重复步骤s3得到下一时隙的用户坐标和步骤s4得到对应的最优波束赋形矩阵,在下一帧开始前将上一帧内所有时隙的用户坐标和对应的波束赋形矩阵输入无人机位置深度展开网络中,无人机位置深度展开网络输出得到最优悬停位置,无人机飞至相应位置,准备下一帧的服务。

8、上述的基于深度强度学习的通信无人机轨迹优化控制方法中,所述sac网络、波束赋形矩阵深度展开网络以及无人机位置深度展开网络的训练所采用的数据集是在真实公开的行人数据集中筛选坐标位置正确且移动次数足够长的行人轨迹,将筛选得到的轨迹重新整合生成。

9、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,步骤s2中,所述无人机发出雷达信号探测地面移动用户时,判断雷达探测次数是否满足要求,如满足则进行下一步骤,若不满足则无人机再次发射雷达探测信号。

10、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,所述波束赋形深度展开网络实现对加权最小均方误差算法展开,采用梯度下降的方式对波束赋形矩阵进行更新,并引入步长和补偿两个可训练参数加快迭代收敛速度,展开六次后得到最优波束赋形。

11、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,所述波束赋形深度展开网络首先初始化一个波束赋形矩阵且满足小于最大发射功率,然后计算用户和速率对波束赋形矩阵的梯度,更新波束赋形,迭代优化六次得到最优波束赋形矩阵。

12、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,所述无人机悬停位置深度展开网络中,采用梯度投影下降方法迭代更新无人机坐标,并引入步长和补偿两个可训练参数加快迭代收敛速度,展开六次后得到下一帧无人机的最佳服务位置。

13、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,所述无人机位置的深度展开网络通过计算用户和速率关于坐标的梯度来更新无人机坐标,同时无人机的位置不能超出服务范围,且相邻两个位置的距离不能超过无人机一个时隙可飞行的最大距离,迭代六次后得到最优悬停位置。

14、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,所述sac网络对初始状态的处理是先依次经过3层隐藏层,每层隐藏层隐藏单元数分别为128、256、128,然后从动作空间中输出两维动作a=(j,d);根据选择的两维动作计算得到下一时隙用户的坐标:

15、x1=x0+d×cosj,

16、y1=y0+d×sinj.

17、式中,(x0,y0)表示当前时隙用户坐标,(x1,y1)为下一时隙坐标,j表示运动方向,d表示运动步长;

18、同时状态发生改变,并且强化学习状态转移到下一状态。

19、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,所述sac网络输出的用户坐标信息输入波束赋形矩阵深度展开网络进行迭代优化波束赋形矩阵后判断该帧是否结束,若结束则进行下一步,相反则回到步骤s3中。

20、前述的基于深度强度学习的通信无人机轨迹优化控制方法中,当无人机的服务时间结束,无人机返回基站。

21、与现有技术相比,由于地面移动用户的随机性,不能够直接精准得到用户的位置信息,无人机的通感一体化技术可以得到用户的位置坐标,但在通信过程中一直通过雷达获取信道状态信息会造成很大的导频开销,本专利技术通过将用户过去几个时刻的坐标作为强化学习的初始状态输入训练好的sac网络,sac网络中的动作网络根据输入的初始状态从动作空间中选取对应的动作,根据选择的动作计算得到下一时隙用户的坐标信息,减少无人机发出的雷达信号次数,采用深度强化学习中的sac架构来训练网络实现用户的移动追踪,有效降低导频开销,提升通信效率。由于地面用户的随机性,网络吞吐率会产生波动,本专利技术将sac网络输出的用户坐标信息输入波束赋形矩阵深度展开网络进行迭代优化波束赋形矩阵,并且在下一帧开始前将上一帧内所有时隙的用户坐标和对应的波束赋形矩阵输入无人机位置深度展开网络中,无人机位置深度展开网络输出得到最优悬停位置,通过深度展开网络计算用户以及用户的速率,进而不断优化无人机的悬停位置,以较低的计算复杂度实现通信吞吐率的最大化。

本文档来自技高网...

【技术保护点】

1.基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:具体步骤如下:

2.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述SAC网络、波束赋形矩阵深度展开网络以及无人机位置深度展开网络的训练所采用的数据集是在真实公开的行人数据集中筛选坐标位置正确且移动次数足够长的行人轨迹,将筛选得到的轨迹重新整合生成。

3.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:步骤S2中,所述无人机发出雷达信号探测地面移动用户时,判断雷达探测次数是否满足要求,如满足则进行下一步骤,若不满足则无人机再次发射雷达探测信号。

4.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述波束赋形深度展开网络实现对加权最小均方误差算法展开,采用梯度下降的方式对波束赋形矩阵进行更新,并引入步长和补偿两个可训练参数加快迭代收敛速度,展开六次后得到最优波束赋形。

5.根据权利要求4所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述波束赋形深度展开网络首先初始化一个波束赋形矩阵且满足小于最大发射功率,然后计算用户和速率对波束赋形矩阵的梯度,更新波束赋形,迭代优化六次得到最优波束赋形矩阵。

6.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述无人机悬停位置深度展开网络中,采用梯度投影下降方法迭代更新无人机坐标,并引入步长和补偿两个可训练参数加快迭代收敛速度,展开六次后得到下一帧无人机的最佳服务位置。

7.根据权利要求6所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述无人机位置的深度展开网络通过计算用户和速率关于坐标的梯度来更新无人机坐标,同时无人机的位置不能超出服务范围,且相邻两个位置的距离不能超过无人机一个时隙可飞行的最大距离,迭代六次后得到最优悬停位置。

8.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述SAC网络对初始状态的处理是先依次经过3层隐藏层,每层隐藏层隐藏单元数分别为128、256、128,然后从动作空间中输出两维动作a=(j,d);根据选择的两维动作计算得到下一时隙用户的坐标:

9.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述SAC网络输出的用户坐标信息输入波束赋形矩阵深度展开网络进行迭代优化波束赋形矩阵后判断该帧是否结束,若结束则进行下一步,相反则回到步骤S3中。

10.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:当无人机的服务时间结束,无人机返回基站。

...

【技术特征摘要】

1.基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:具体步骤如下:

2.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述sac网络、波束赋形矩阵深度展开网络以及无人机位置深度展开网络的训练所采用的数据集是在真实公开的行人数据集中筛选坐标位置正确且移动次数足够长的行人轨迹,将筛选得到的轨迹重新整合生成。

3.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:步骤s2中,所述无人机发出雷达信号探测地面移动用户时,判断雷达探测次数是否满足要求,如满足则进行下一步骤,若不满足则无人机再次发射雷达探测信号。

4.根据权利要求1所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述波束赋形深度展开网络实现对加权最小均方误差算法展开,采用梯度下降的方式对波束赋形矩阵进行更新,并引入步长和补偿两个可训练参数加快迭代收敛速度,展开六次后得到最优波束赋形。

5.根据权利要求4所述的基于深度强度学习的通信无人机轨迹优化控制方法,其特征在于:所述波束赋形深度展开网络首先初始化一个波束赋形矩阵且满足小于最大发射功率,然后计算用户和速率对波束赋形矩阵的梯度,更新波束赋形,迭代优化六次得到最优波束赋形矩阵。

6.根据权利要求1所述的基于深度强度...

【专利技术属性】
技术研发人员:殷锐彭经纬袁建涛刘胜利何欣
申请(专利权)人:浙大城市学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1