System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的无人机中继轨迹优化方法技术_技高网
当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于深度强化学习的无人机中继轨迹优化方法技术

技术编号:41264747 阅读:5 留言:0更新日期:2024-05-11 09:21
本发明专利技术公开了一种基于深度强化学习的无人机中继轨迹优化方法,所述方法以最小化无人机飞行能耗为目标,利用源节点和目的节点的位置信息,给出了一种跑道形轨迹设计问题,根据源节点需要发送给目的节点的数据量大小和无人机飞行的最大最小速度限制以及无人机携带的能量限制,将该轨迹优化设计问题转化为马尔可夫决策问题,给出状态空间、动作空间、策略和奖励函数,在此基础上,设计了基于深度策略性梯度的轨迹优化算法获得无人机的控制策略,对无人机的飞行速度和跑道形飞行轨迹进行优化调整,在符合无人机飞行速度和能量限制下,以及满足系统发送数据量要求的条件下,实现无人机飞行能耗的最小化。

【技术实现步骤摘要】

本专利技术属于无线通信,尤其涉及一种基于深度强化学习的固定翼解码转发无人机中继轨迹优化方法。


技术介绍

1、近年来,随着无人机技术的不断发展,无人机在无线中继通信领域的应用引起了广泛的关注,中继无人机能够在传输过程中作为信号中转站,提升通信覆盖范围和通信质量,虽然无人机的移动性为通信带来了更多的自由度,但有效规划中继无人机的飞行轨迹,特别是固定翼无人机的飞行轨迹是一项极具挑战性的工作。

2、目前,研究人员大多利用连续凸逼近方法将飞行轨迹规划问题转化为近似凸问题加以解决,复杂度较高,现有的研究较多针对于旋翼无人机,对于固定翼无人机的研究相对偏少,而且较少考虑全双工中继通信场景;在考虑信道模型时,大多数研究还是针对视距(los)信道,较少选用更加实际的los和非视距(nlos)的混合概率信道。另外,现有的研究常常对深度强化学下的动作空间进行离散化处理。但无人机的飞行过程是一个连续状态,这就导致离散的动作空间不是很精确。


技术实现思路

1、为克服现有技术的缺点和不足,本专利技术的目的在于提供一种基于深度强化学习的固定翼解码转发无人机中继轨迹优化方法,对无人机中继系统的飞行速度和跑道形飞行轨迹进行调整,在符合无人机飞行速度限制和携带能量限制下,以及满足系统发送数据量要求的条件下,实现无人机飞行能耗的最小化,从而提高系统的能量效率。本专利技术的技术方案如下:

2、一种基于深度强化学习的无人机中继轨迹优化方法,在该方法中,当源节点s需要将数据量大小为q的数据传输到目的节点d,由于s和d之间距离较远,两者无法直接进行通信,此时借助无人机中继r进行数据的转发,无人机r携带的总能量为e,无人机r在能量e耗完前把数据量为q的数据从s转发给d,其特征在于,该算法包括以下步骤:

3、步骤一:定义源节点s和目的节点d之间的距离为lsd,无人机r以高度为h的跑道形轨迹盘旋;

4、步骤二:定义源节点s和目的节点d的水平位置坐标分别为qs=(0,0)和qd=(lsd,0),无人机中继r在第n个时隙的水平坐标为q[n]=(x[n],y[n]);

5、步骤三:无人机从点(ξ-ru,0,h)开始以逆时针方向飞行,其中ξ表示左半圆轨迹的圆心在水平面的投影与节点s之间的距离或者右半圆轨迹的圆心在水平面的投影与节点d之间的距离,ru表示左半圆或者右半圆轨迹的半径,由于无人机中继r在s与d之间盘旋,因此ru∈(0,ξ];

6、步骤四:设τ[n]表示第n个时隙的持续时间,n∈{1,…,δn},δn表示为总时隙数,并且计算在第n个时隙时,r与s、d的距离,s与r、r与d存在los链路的概率,s到r以及r到d的平均信道增益,r和d的接收信号;

7、步骤五:在第n个时隙末尾时,计算r和d接收的总数据量,然后得出信息因果性约束,最后得出接收数据量约束;

8、步骤六:根据上述步骤建立无人机轨迹优化设计问题;

9、步骤七:将建立的无人机轨迹优化设计问题转化为mdp问题,计算第n个时隙的状态、控制策略、奖励和动作;

10、步骤八:根据mdp问题给出的状态空间、动作空间、策略和奖励函数,通过基于深度策略性梯度的无人机跑道形轨迹优化算法,得到无人机中继最优轨迹;

11、对于跑道形轨迹下的全双工固定翼无人机中继通信系统,单天线地面源节点s需要将数据量为q的数据传输到地面单天线目的节点d,由于s和d之间距离较远,两者无法直接进行通信,需要借助单天线无人机中继r进行数据的转发,设定无人机r携带的总能量为e,r需要在能量e耗完前,把数据量为q的数据从s转发给d,这里,无人机r工作在全双工模式,采用解码转发中继协议,并且s到r和r到d的数据传输在不同的频带完成,因此r端不会产生自干扰,设定s和d之间的距离为lsd。

12、设定r在s与d之间,以高度为h的跑道形轨迹盘旋,轨迹由左半圆、右半圆和上下两条直线轨迹构成,围成的跑道形轨迹在节点s与d之间,并且以s与d连线的中间点对称,定义源节点s和目的节点d的水平位置坐标分别为qs=(0,0)和qd=(lsd,0),无人机中继r在第n个时隙的水平坐标为q[n]=(x[n],y[n])。这样,s、d和r的三维立体坐标分别为(0,0,0)、(lsd,0,0)和(x[n],y[n],h),无人机从点(ξ-ru,0,h)开始以逆时针方向飞行,其中ξ表示左半圆轨迹的圆心在水平面的投影与节点s之间的距离或者右半圆轨迹的圆心在水平面的投影与节点d之间的距离,ru表示左半圆或者右半圆轨迹的半径,由于r在s与d之间盘旋,因此ru∈(0,ξ],无人机的起飞和着陆不考虑。

13、与具有固定时间间隔的现有工作不同,这里考虑动态持续时间,即时间间隔是不同的,设τ[n]表示第n个时隙的持续时间,n∈{1,…,δn},δn表示为总时隙数,无人机总飞行时间为为了便于数学表示,假设n=0时r位于初始位置,其水平坐标为(ξ-ru,0);n=δn时,r位于终点位置,其水平坐标也为(ξ-ru,0),即q[0]=(ξ-ru,0),q[δn]=(ξ-ru,0);n=0时,τ[n]=0,

14、在第n个时隙r与s、d的距离dsr[n]和drd[n]可分别表示为:

15、

16、

17、其中,n∈{1,…,δn},δn表示为总时隙数,qs和qd分别为s和d的水平位置坐标,q[n]是无人机在第n个时隙的水平位置坐标,h为无人机的飞行高度,在第n个时隙,s与r、r与d存在los链路的概率prsr[n]和prrd[n]分别为:

18、

19、

20、其中θsr[n]=(180/π)arcsin(h/dsr[n])和θrd[n]=(180/π)arcsin(h/drd[n])分别为第n个时隙r与s、d的仰角,arcsin(·)是反正弦函数,和β为混合概率信道模型参数,和β的取值取决于具体的通信地理环境,

21、在第n个时隙,s到r(s-r),r到d(r-d)的平均信道增益可分别写为:

22、

23、

24、其中ko=4πfsr/c、k1=4πfrd/c,fsr、frd分别是s-r、r-d链路的载波频率,c是光速,α是大尺度衰落因子,通常取值在2-4之间,η1和η2分别是los和nlos路径损耗参数,dsr[n]和drd[n]分别为第n个时隙s-r和r-d的距离,

25、在第n个时隙,r和d的接收信号分别为:

26、

27、

28、其中和分别为s和r的发射功率,xs[n]和xr[n]分别为s和r发射的单位功率信号,nr[n]和nd[n]分别为r和d处的高斯白噪声,

29、第n个时隙末尾,r和d接收的总数据量可以写为:

30、

31、

32、其中,n∈{1,…,δn},τ[m]表示第m个时隙的持续时间,σ2为r和d处的高斯白噪声nr[n本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的无人机中继轨迹优化方法,当源节点S需要将数据量大小为Q的数据传输到目的节点D,由于S和D之间距离较远,两者无法直接进行通信,此时借助无人机中继R进行数据的转发,无人机R携带的总能量为E,无人机R在能量E耗完前把数据量为Q的数据从S转发给D,其特征在于,该算法包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的无人机中继轨迹优化方法,其特征在于:

3.根据权利要求1所述的一种基于深度强化学习的无人机中继轨迹优化方法,其特征在于:

4.根据权利要求1所述的一种基于深度强化学习的无人机中继轨迹优化方法,其特征在于:所述步骤六中无人机轨迹优化的过程为:

5.根据权利要求3所述的一种基于深度强化学习的无人机中继轨迹优化方法,其特征在于:所述步骤七计算第n个时隙的状态、控制策略、奖励和动作,并且用Sn、Rn和An分别表示第n个时隙的状态、奖励和动作;

6.根据权利要求1所述的一种基于深度强化学习的无人机中继轨迹优化方法,其特征在于:所述步骤八中基于深度策略性梯度的无人机跑道形轨迹优化设计算法的步骤为,

...

【技术特征摘要】

1.一种基于深度强化学习的无人机中继轨迹优化方法,当源节点s需要将数据量大小为q的数据传输到目的节点d,由于s和d之间距离较远,两者无法直接进行通信,此时借助无人机中继r进行数据的转发,无人机r携带的总能量为e,无人机r在能量e耗完前把数据量为q的数据从s转发给d,其特征在于,该算法包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的无人机中继轨迹优化方法,其特征在于:

3.根据权利要求1所述的一种基于深度强化学习的无人机中继轨迹优化方法,其特征在于:

<...

【专利技术属性】
技术研发人员:王涛吉晓东朱宣施森译
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1