基于双层强化学习优化的JPDA多目标跟踪方法及系统技术方案

技术编号：40981667 阅读：2 留言：0更新日期：2024-04-18 21:27

本发明专利技术公开了基于双层强化学习优化的JPDA多目标跟踪方法及系统，所述方法包括：S1、在量测周围生成杂波形成复杂环境，在复杂环境中利用深度强化学习对传感器进行路径规划，根据规划的路径找到最佳观测位置，在所述最佳观测位置得到最佳量测信息；S2、基于所述最佳量测信息构件伪关联方程，利用深度强化学习对所述伪关联方程进行优化，得到最佳量测集，对所述最佳量测集进行滤波后验，实现JPDA多目标跟踪。本发明专利技术利用强化学习对JPDA关联门内所有候选人量测进行了训练，使得训练后的候选人量测能够有效的提高JPDA算法的估计精度，且双层强化学习优化下的JPDA有着极佳的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及多目标根据，具体涉及基于双层强化学习优化的jpda多目标跟踪方法及系统。

技术介绍

1、杂波环境中的多目标跟踪技术一直是雷达跟踪领域的重点和难点，而数据关联是多目标跟踪中的一个重要环节，是将不确定的量测与目标运动轨迹匹配的过程。由于多目标跟踪大都处在杂波密集的环境之中，这也使得数据关联的过程十分复杂，尤其是在多个目标轨迹发生交汇的过程中，所以利用特定的方法对多目标跟踪中的数据关联进行优化就可以减小跟踪误差。同时为了减少量测过程中的漏检、误检情况并降低雷达观测中的不稳定性，对雷达自由度参数实时调整以适应环境的变化，使雷达可以稳定可靠的到达预定观测的最优位置，也能有效的提高多目标跟踪精度。

2、传统传感器控制的规划决策和离散动作空间决策，在复杂不确定性环境中，难以充分保障传感器控制与管理策略的最优性，也缺乏与环境交互的自学习能力，而如何使得传感器能够自主学习和自主决策也是目前传感器管理发展的主要方向。近年来，深度强化学习因其高效的学习能力和决策能力被广泛应用到传感器的路径规划中。qin等人提出了一种基于ppo(proximal policy optimization)算法的未知环境下移动机器人的路径规划。xu等人利用深度强化学习(deep reinforcement learning,drl)方法，在环境未知的情况下，利用无人机对多个目标物体进行监测。为此，将无人机的飞行决策问题构建为马尔可夫模型，并设置相对于经验池数量的神经网络层进行抽样训练。传感器管理的目的是为得到用于优化目标状态估计的量测信息，从而提

3、综上所述，尽管针对传感器路径规划或jpda算法的优化已经存在一些方法，但此前并未有人将两者结合应用在多目标跟踪中，所以其中存在一些问题。第一个问题：若将传感器位置看作一个可调参数，如何对传感器做出控制决策以获取多目标跟踪中的单步最佳观测位置；第二个问题：在传感器获得最佳观测位置基础上，如何基于新的量测数据进行数据关联的优化。

技术实现思路

1、为了解决以上技术问题，本专利技术提供了基于双层强化学习优化的jpda多目标跟踪方法，所述方法包括：

2、s1、在量测周围生成杂波形成复杂环境，在复杂环境中利用深度强化学习对传感器进行路径规划，根据规划的路径找到最佳观测位置，在所述最佳观测位置得到最佳量测信息；

3、s2、基于所述最佳量测信息构建伪关联方程，利用深度强化学习对所述伪关联方程进行优化，得到最佳量测集，对所述最佳量测集进行滤波后验，实现jpda多目标跟踪。

4、可选的，所述s1中，在量测周围生成杂波形成复杂环境的方法具体包括：

5、基于下式在量测的周围生成杂波：

6、

7、其中，表示目标在时刻i产生的杂波，i＝1,2,…,n；是目标t在k时刻的量测，l是门的边长，rand0,1是属于[0,1]的随机数。

8、可选的，所述s1中，在复杂环境中利用深度强化学习对传感器进行路径规划，根据规划的路径找到最佳观测位置具体包括：

9、构建伪量测方程；

10、提取预设数量目标运动的状态信息，利用先验信息进行滤波伪更新；

11、使用dqn算法进行传感器路径规划训练；

12、根据训练结果得到传感器路径最优决策；

13、根据所述传感器路径最优决策得到最佳观测位置。

14、可选的，所述s1中，根据最佳观测位置得到最佳量测信息的方法具体包括：

15、当传感器到达最佳观测位置时，基于关联门获得候选人量测并构建状态圆，对所有候选人量测使用下式进行状态划分：

16、

17、其中，是目标t在k时刻的量测，是关联门的中心，ζ是关联门的门限长度；是目标t的新息协方差矩阵。

18、可选的，所述s2中，基于所述最佳量测信息构建伪关联方程，利用深度强化学习对所述伪关联方程进行优化，得到最佳量测集，对所述最佳量测集进行滤波后验，实现jpda多目标跟踪的方法具体包括：

19、基于最佳量测信息构建伪关联方程，利用dqn算法进行候选人量测训练，得到最优候选人量测；

20、将所述最优候选人量测输入伪关联方程，得到最佳量测集，对所述最佳量测集进行滤波后验更新，得到多目标跟踪结果，实现jpda多目标跟踪的方法。

21、本专利技术还公开基于双层强化学习优化的jpda多目标跟踪系统，所述系统包括：传感器测量模块和多目标跟踪模块；

22、所述传感器测量模块用于在量测周围生成杂波形成复杂环境，在复杂环境中利用深度强化学习对传感器进行路径规划，根据规划的路径找到最佳观测位置，在所述最佳观测位置得到最佳量测信息；

23、所述多目标跟踪模块用于基于所述最佳量测信息构建伪关联方程，利用深度强化学习对所述伪关联方程进行优化，得到最佳量测集，对所述最佳量测集进行滤波后验，实现jpda多目标跟踪。

24、可选的，所述传感器测量模块包括环境生成子模块、路径规划子模块、观测位置获取子模块和量测信息子模块；

25、所述环境生成子模块用于在传感器量测周围生成杂波，形成复杂环境；

26、所述路径规划子模块用于dqn算法在复杂环境中生成最佳路径决策；

27、所述观测位置获取子模块用于根据最佳路径决策信息得到最佳观测位置；

28、所述量测信息子模块用于基于最佳观测位置得到传感器的候选人量测信息。

29、可选的，所述多目标跟踪模块包括最优候选人量测子模块和滤波更新子模块；

30、所述最优候选人量测子模块用于基于最佳量测信息构建伪关联方程，利用dqn算法进行候选人量测训练，得到最优候选人量测；

31、所述滤波更新子模块用于将所述最优候选人量测输入伪关联方程，得到最佳量测集，对所述最佳量测集进行滤波后验更新，得到多目标跟踪结果，实现jpda多目标跟踪的方法。

32、与现有技术相比，本专利技术的有益效果为：

33、本专利技术采用双层强化学习对雷达多目标跟踪过程进行了优化，采用dqn强化学习算法实现了传感器路径的单步训练，使传感器能够获得单幕最优路径，同时优化了传感本文档来自技高网...

【技术保护点】

1.基于双层强化学习优化的JPDA多目标跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于双层强化学习优化的JPDA多目标跟踪方法，其特征在于，所述S1中，在量测周围生成杂波形成复杂环境的方法具体包括：

3.根据权利要求1所述的基于双层强化学习优化的JPDA多目标跟踪方法，其特征在于，所述S1中，在复杂环境中利用深度强化学习对传感器进行路径规划，根据规划的路径找到最佳观测位置具体包括：

4.根据权利要求1所述的基于双层强化学习优化的JPDA多目标跟踪方法，其特征在于，所述S1中，根据最佳观测位置得到最佳量测信息的方法具体包括：

5.根据权利要求1所述的基于双层强化学习优化的JPDA多目标跟踪方法，其特征在于，所述S2中，基于所述最佳量测信息构建伪关联方程，利用深度强化学习对所述伪关联方程进行优化，得到最佳量测集，对所述最佳量测集进行滤波后验，实现JPDA多目标跟踪的方法具体包括：

6.基于双层强化学习优化的JPDA多目标跟踪系统，所述系统用于实现权利要求1-5任意一项所述的基于双层强化学习优化的JPDA多

7.根据权利要求6所述的基于双层强化学习优化的JPDA多目标跟踪系统，其特征在于，所述传感器测量模块包括环境生成子模块、路径规划子模块、观测位置获取子模块和量测信息子模块；

8.根据权利要求6所述的基于双层强化学习优化的JPDA多目标跟踪系统，其特征在于，所述多目标跟踪模块包括最优候选人量测子模块和滤波更新子模块；

...

【技术特征摘要】

1.基于双层强化学习优化的jpda多目标跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于双层强化学习优化的jpda多目标跟踪方法，其特征在于，所述s1中，在量测周围生成杂波形成复杂环境的方法具体包括：

3.根据权利要求1所述的基于双层强化学习优化的jpda多目标跟踪方法，其特征在于，所述s1中，在复杂环境中利用深度强化学习对传感器进行路径规划，根据规划的路径找到最佳观测位置具体包括：

4.根据权利要求1所述的基于双层强化学习优化的jpda多目标跟踪方法，其特征在于，所述s1中，根据最佳观测位置得到最佳量测信息的方法具体包括：

5.根据权利要求1所述的基于双层强化学习优化的jpda多目标跟踪方法，其特征在于，所述s2中，基于所述最佳...

【专利技术属性】
技术研发人员：陈辉，缪嘉伟，张小娟，罗欣，孙康，董周楠，张文旭，张虹芸，张新迪，赵永红，
申请(专利权)人：兰州理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人