一种基于强化学习的威胁规避下无人机路径规划方法技术

技术编号：41128329 阅读：2 留言：0更新日期：2024-04-30 17:56

本发明专利技术公开了一种基于强化学习的威胁规避下无人机路径规划方法，包括：构建多目标跟踪场景，基于多目标跟踪场景进行目标初始化得到初始化信息；基于初始化信息构建运动状态模型和量测模型；基于运动状态模型和量测模型进行目标运动状态预测得到联合概率和状态预测概率密度；基于状态预测概率密度获取目标状态信息，基于目标状态信息构建下一时刻动作的伪量测，并基于伪量测得到伪更新后的目标状态信息；基于目标实际飞行状态进行目标威胁度评估得到伪更新后的目标威胁度；基于伪更新后的目标状态信息和伪更新后的目标威胁度得到最优决策；基于最优决策进行无人机路径规划。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及雷达信号处理，特别涉及一种基于强化学习的威胁规避下无人机路径规划方法。

技术介绍

1、本专利技术涉及无人机系统的路径规划，特别是在多方威胁环境下，利用强化学习和知识图谱技术，实现无人机的自主决策和飞行安全。

2、随着现代战场环境的复杂化以及无人机装备水平的持续提升，无人机在各类任务场景中的作用日益凸显。然而，在多方威胁环境下，无人机进行侦察任务具有极高的挑战性，这些威胁会影响无人机的飞行安全和任务效果。无人机在获取情报的过程中，如果要降低目标对无人机的威胁，将不可避免地对目标的多特征信息(例如：目标位置、速度、加速度、方位角、目标类型等)的估计精度产生一定影响。在实际场景中，为了成功完成侦察任务，无人机必须在面对各目标的攻击威胁且尽可能不损失估计精度的前提下，自适应地规划飞行路径以躲避对自身构成威胁的目标。因此，如何实时评估目标威胁度并根据威胁度对无人机的飞行路径进行合理规划，是无人机系统的一个重要问题。

3、为了解决这个问题，传统的路径规划方法通常采用基于规则的方法或基于优化的方法。基于规则的方法是根据预先设定的规则或策略，根据当前的环境信息，选择合适的飞行动作。这种方法的优点是简单易实现，但缺点是缺乏灵活性和适应性，不能应对复杂和动态变化的环境。基于优化的方法是根据某种目标函数寻找最优或次优的飞行路径。这种方法的优点是可以考虑多种约束和目标，但缺点是计算量大，实时性差，且容易陷入局部最优。

4、为了改进传统路径规划方法的这些不足，近年来，一些研究者开始使用强化学习来进行路径规

5、因此，本专利技术提出一种基于强化学习的威胁规避下无人机路径规划方法。

技术实现思路

1、本专利技术的目的是提供一种基于强化学习的威胁规避下无人机路径规划方法，以解决上述现有技术存在的问题。

2、本专利技术提供的一种基于强化学习的威胁规避下无人机路径规划方法，包括：

3、构建多目标跟踪场景，基于所述多目标跟踪场景进行目标初始化得到初始化信息；

4、基于所述初始化信息构建运动状态模型和量测模型；

5、基于所述运动状态模型和所述量测模型进行目标运动状态预测得到联合概率和状态预测概率密度；

6、基于所述状态预测概率密度获取目标状态信息，基于所述目标状态信息构建下一时刻动作的伪量测，并基于所述伪量测得到伪更新后的目标状态信息；

7、基于目标实际飞行状态进行目标威胁度评估得到伪更新后的目标威胁度；

8、基于所述伪更新后的目标状态信息和所述伪更新后的目标威胁度得到最优决策；

9、基于所述最优决策进行无人机路径规划。

10、可选地，所述运动状态模型和量测模型的计算公式为：

11、

12、其中，x(k)是k时刻目标的n维状态向量，z(k)是k时刻目标的m维观测向量，φ是n×n阶状态转移矩阵，γ是n×n阶系统噪声的加权矩阵，η是m×n阶量测矩阵，v(k)和w(k-1)分别是m阶和n阶相互独立的过程系统噪声和观测噪声。

13、可选地，基于所述运动状态模型和所述量测模型进行目标运动状态预测得到联合概率和状态预测概率密度的过程包括：

14、基于所述量测模型得到多目标的量测信息；

15、对所述多目标的量测信息进行划分得到量测与目标的关系，并计算得到量测与目标的联合概率；

16、基于所述运动状态模型对进行目标运动状态预测得到状态预测概率密度。

17、可选地，对所述多目标的量测信息进行划分的过程包括：

18、基于多目标的量测信息和若干目标构建联合事件；

19、基于量测信息与目标的匹配情况构建互联矩阵；

20、计算与任一目标有关的所有量测信息得到确认矩阵；

21、基于所述互联矩阵和所述确认矩阵计算所述联合事件的联合概率；

22、基于所述联合概率将量测信息划分给各目标。

23、可选地，在第i个联合事件中如果量测j来自目标t则表示为1，否则，表示为0；

24、可用公式表示为：

25、所述互联矩阵为：

26、所述确认矩阵为：

27、式中，θi(k)表示第i个联合事件，表示在第i个联合事件中量测是否来自目标t，表示量测与目标之间匹配情况，j表示第j个量测信息，j＝1,2,…,mk表示量测的个数，t＝0,1,…,t表示目标的个数，ωj0表示没有目标的事件，ω表示量测与目标之间的距离关系。

28、可选地，所述状态预测概率密度的计算公式为：

29、

30、

31、式中，表示k-1时刻的状态估计值，pk-1|k-1表示k-1时刻的状态估计误差协方差矩阵，表示k-1时刻的预测误差，fk-1表示状态转移矩阵，γk-1表示噪声矩阵。

32、可选地，基于所述目标状态信息采用量测映射函数构建下一时刻动作的伪量测，所述构建伪量测的计算公式为：

33、

34、式中，mk+1|k(·)表示无人机在下一时刻动作下的坐标，表示目标的坐标，wk+1(a)表示杂波，表示目标到传感器的距离，表示目标到传感器的角度，表示伪量测。

35、可选地，基于所述伪更新后的目标状态信息和所述伪更新后的目标威胁度得到最优决策的过程中包括构建奖励函数，其中，所述奖励函数的计算公式为：

36、if ω1*r1+ω2*r2＞ω1*r3+ω2*r4:

37、rk＝ω1*r1+ω2*r2-ω1*r3+ω2*r4

38、else:

39、rk＝0

40、式中，r1＝tr(pk-1|k-1)，r2＝threat_before，r3＝tr(pk|k)，r4＝threat_after，rk表示奖励函数，ω1+ω2＝1。

41、可选地，无人机基于所述最优决策进行变轨操作得到状态后验概率密度，基于所述状态后验概率密度对多目标运动状态进行更新，具体计算过程为：

42、

43、

44、式中，表示滤波误差，hk表示量测矩阵，kk表示k时刻卡尔曼增益矩阵。

45、本专利技术具有如下技术效果：

46、本专利技术提出复杂环境下基于强化学习的多目标跟踪优化中威胁规避下的无人机路径规划算法。第一，由于本专利技术利用知识图谱对目标的威胁度进行推理评估，颇为有效的解决复杂、异构、海量数据的威胁估计问题，对获取到的知识进行有效管理，提高了数据资源的利用率，本文档来自技高网...

【技术保护点】

1.一种基于强化学习的威胁规避下无人机路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，所述运动状态模型和量测模型的计算公式为：

3.根据权利要求2所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，基于所述运动状态模型和所述量测模型进行目标运动状态预测得到联合概率和状态预测概率密度的过程包括：

4.根据权利要求3所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，对所述多目标的量测信息进行划分的过程包括：

5.根据权利要求4所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，

6.根据权利要求5所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，所述状态预测概率密度的计算公式为：

7.根据权利要求6所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，基于所述目标状态信息采用量测映射函数构建下一时刻动作的伪量测，所述构建伪量测的计算公式为：

8.根据权利要求7所述的基于强化学习

9.根据权利要求1所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，无人机基于所述最优决策进行变轨操作得到状态后验概率密度，基于所述状态后验概率密度对多目标运动状态进行更新，具体计算过程为：

...

【技术特征摘要】

1.一种基于强化学习的威胁规避下无人机路径规划方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，所述运动状态模型和量测模型的计算公式为：

4.根据权利要求3所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，对所述多目标的量测信息进行划分的过程包括：

5.根据权利要求4所述的基于强化学习的威胁规避下无人机路径规划方法，其特征在于，

6.根据权利要求5所述的基于强化学习的威胁规...

【专利技术属性】
技术研发人员：陈辉，罗欣，缪嘉伟，张永祺，张文旭，张虹芸，张新迪，马小航，董周楠，
申请(专利权)人：兰州理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人