一种基于深度强化学习的无人机路由调配方法组成比例

技术编号：40990946 阅读：2 留言：0更新日期：2024-04-18 21:33

本发明专利技术公开了一种基于深度强化学习的无人机路由调配方法，无人机群的路由采用了分布式的Ad‑Hoc路由方式构建无人机群网络。首先，在无人机群中，每个无人机会生成实时的路由质量评估指标矩阵，主要通过遮挡因子、吞吐量、丢包率三个变量来评估无人机路由的状态；其次无人机会将评估指标矩阵传递给其他无人机，每个无人机根据收到的矩阵信息以及自身矩阵信息的参数，决定是否需要重新调配特定无人机的路由；再然后是动态路由计算，如果决策确定需要重新调配路由，那么相关的无人机将通过深度强化学习网络执行路由计算。本发明专利技术确保在高速移动情况下仍能维持稳定的通信连接，动态地调整路由，从而提高通信质量和传输可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及导航定位，具体涉及一种基于连续太阳子午面夹角测量的导航定位方法及装置。

技术介绍

1、随着感知、导航、救援等任务对无人机网络性能的要求越来越高，必须要保证无人机网络的高效可靠通信。目前无人机网络的通信需求包括低时延、高可靠性、可扩展性、高适应性、低网络开销等。低时延要求无人机网络根据任务场景维持较低的传输时延；高可靠性要求无人机直接建立可靠的传输网络，提高数据报文投递的成功率；可扩展性要求无人机网络在保证正常通信的前提下可以随着任务需求的变化调整无人机群规模；高适应性要求无人机网络在遇到拓扑变化、节点失效等问题时可以修复网络并维持正常的通信；低网络开销要求无人机网络降低通信所需开销，提高带宽的使用效率。

2、当前无人机通信面临一个挑战，即高速移动导致环境情况也在不断变化可能导致信道连接不稳定，从而影响通信质量和数据传输的可靠性，例如在高速移动过程中穿越涵洞、山川、树林环境时，环境信息大幅度变换，路由也会因此变得难以持续稳定。

3、传统的无人机路由方式往往基于固定的路由规则或者静态的网络拓扑，无法适应动态的环境变化。这在高速移动的情况下尤其明显，因为无人机的位置和相对位置在不断变化，可能导致原有的通信链路不再稳定，从而影响通信质量和数据传输的可靠性；在某些现代方法中也使用到了相同的神经网络来处理该问题，但处理时由于依赖于发送节点和目的节点之间的数据交流来调整路由，容易被突如其来的链路断裂而影响。

技术实现思路

1、专利技术目的：本专利技术目的在于

2、本专利技术提供的技术方案为：一种基于深度强化学习的无人机路由调配方法，无人机群的路由采用了分布式的ad-hoc路由方式构建无人机群网络，调配方法按如下步骤进行：

3、s1：构建路由质量评估矩阵为mij＝{cdij，tij，lij}，其中，cdij为两架无人机之间受遮挡物影响的遮挡因子，tij为两架无人机之间传递信息的吞吐量，lij为丢包率；

4、s2、无人机群网络中每架无人机实时生成所述路由质量评估矩阵并在已连接的网络中向其他无人机传递；

5、s3：每架无人机接收到其他无人机传递的所述路由质量评估矩阵后，生成两架无人机之间的路由得分：scoreij＝(w1·cdij)·(w2·tij)·lij，其中，w1、w2为预设的参数权重，scoreij为从无人机i到无人机j之间的路由得分；如果路由得分scoreij超出预设的阈值，则执行步骤s4，否则执行步骤s2；

6、s4：输入前一次采集的路由信息至训练好的深度q-网络，来实时计算优化后的路由质量评估矩阵，继续执行步骤s2。

7、进一步地，步骤s1中所述的两架无人机之间受遮挡物影响的遮挡因子cdij的获得方法为：设无人机群网络中共有n架无人机，第i架无人机到第j架无人机之间的距离为dij(i＝1，2，3，…，n)，每次传递的数据包都带有i、j无人机的通信时间戳ti，tj，则两者之间的瞬时通信时延为tij＝|ti-tj|，则两架无人机之间受遮挡物影响的遮挡因子为cdij为：其中l表示预置的无人机自身长度冗余距离。

8、进一步地，步骤s1中所述的两架无人机之间传递信息的吞吐量tij的获得方法为：设无人机之间每次传递数据包大小固定为si，所述数据包到达目标节点和完全被目标节点接收为两个时间节点trj，taj，则传递与接收方之间的吞吐量tij可记为：

9、

10、其中tδ为预置的无人机处理数据包的冗余时间误差。

11、进一步地，步骤s1中所述的丢包率的获得方法为：设无人机之间每次传递数据包大小固定为si，接收方无人机接收到的数据包大小为则丢包率为lij为：其中，将lij∈[0，0.05]定义为无损传输。

12、进一步地，步骤s4中的深度q-网络的训练方法为：

13、s4.1，将每架无人机的每一时刻所处的环境状态表示为：

14、

15、其中，bj(j＝1，2，...，n)的值代表无人机i在此t时刻时与无人机j之间的路由数量；

16、s4.2，针对三个状态参量设计奖惩函数，表示为：

17、rt＝α·t-β·cd-γ·l，其中，α、β、γ为预置的权重参数，通过马尔可夫决策过程，找到总累计奖励最大的策略；

18、s4.3使用深度q-网络，无人机获得环境状态st，奖励函数rt，根据ε-greedy选择动作dt，进入下一状态st+1；

19、将状态转移对(st，dt，rt，st+1)作为经验数据，添加到经验回放记忆单元mreplay中，再从回放记忆单元mreplay随机采样训练无人机，之后使用目标神经网络计算最小损失函数；再利用梯度下降的方法在学习率为α的情况下更新训练神经网络参数，每k步更新目标神经网络参数θ′＝θ，一直循环到训练结束。

20、进一步地，步骤s4.3中计算最小损失函数和更新训练神经网络参数的方法为：

21、j(θ)＝e[(y-q(s，b，θ))2]

22、y＝r+maxq(s′，b′，θ′)

23、再依据梯度下降公式：

24、

25、

26、其中，θ为训练神经网络的初始化参数，θ′为通过网络训练输出得到的目标参数，q(s，b，θ)是训练神经网络输出的估计值。

27、有益效果：本专利技术提供一种基于深度强化学习的无人机路由调配方法，实现了对动态复杂环境下无人机群的可靠通信的保障，改善无人机群通信中由高速移动引起的信道连接不稳定问题，只依靠无人机自身得到的路由质量评估指标矩阵来进行处理路由的调配过程，时效性强，几乎做到了不间断预测自身路由信息来调配自身路由的效果。

本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的无人机路由调配方法，其特征在于，无人机群的路由采用了分布式的Ad-Hoc路由方式构建无人机群网络，调配方法按如下步骤进行：

2.根据权利要求1所述的一种基于深度强化学习的无人机路由调配方法，其特征在于，步骤S1中所述的两架无人机之间受遮挡物影响的遮挡因子Cdij的获得方法为：设无人机群网络中共有N架无人机，第i架无人机到第j架无人机之间的距离为dij(i＝1，2，3，…，N)，每次传递的数据包都带有i、j无人机的通信时间戳ti，tj，则两者之间的瞬时通信时延为tij＝|ti-tj|，则两架无人机之间受遮挡物影响的遮挡因子为Cdij为：其中l表示预置的无人机自身长度冗余距离。

3.根据权利要求1所述的一种基于深度强化学习的无人机路由调配方法，其特征在于，步骤S1中所述的两架无人机之间传递信息的吞吐量Tij的获得方法为：设无人机之间每次传递数据包大小固定为Si，所述数据包到达目标节点和完全被目标节点接收为两个时间节点trj，taj，则传递与接收方之间的吞吐量Tij可记为：

4.根据权利要求1所述的一种基于深度强化学习的无人

5.根据权利要求1所述的一种基于深度强化学习的无人机路由调配方法，其特征在于，步骤S4中的深度Q-网络的训练方法为：

6.根据权利要求5所述的一种基于深度强化学习的无人机路由调配方法，其特征在于，步骤S4.3中计算最小损失函数和更新训练神经网络参数的方法为：

...

【技术特征摘要】

1.一种基于深度强化学习的无人机路由调配方法，其特征在于，无人机群的路由采用了分布式的ad-hoc路由方式构建无人机群网络，调配方法按如下步骤进行：

2.根据权利要求1所述的一种基于深度强化学习的无人机路由调配方法，其特征在于，步骤s1中所述的两架无人机之间受遮挡物影响的遮挡因子cdij的获得方法为：设无人机群网络中共有n架无人机，第i架无人机到第j架无人机之间的距离为dij(i＝1，2，3，…，n)，每次传递的数据包都带有i、j无人机的通信时间戳ti，tj，则两者之间的瞬时通信时延为tij＝|ti-tj|，则两架无人机之间受遮挡物影响的遮挡因子为cdij为：其中l表示预置的无人机自身长度冗余距离。

3.根据权利要求1所述的一种基于深度强化学习的无人机路由调配方法，其特征在于，步骤s1中所述的两架无人机之间传递信...

【专利技术属性】
技术研发人员：赵曦，孙玮，邓小芳，叶昌彬，盛楠，
申请(专利权)人：杭州长望智创科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人