一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法技术

技术编号:26174416 阅读:21 留言:0更新日期:2020-10-31 14:02
本发明专利技术涉及一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法。该方法包括以下步骤:利用传感器进行数据采集,获得原始追踪场景数据;对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略,最优策略是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;将最优策略进行线下部署,应用到实际的追踪场景进行目标追踪。本发明专利技术适用于实际传感器网络中的目标追踪,有效提高了追踪的精度。

A target tracking method based on deep reinforcement learning updating Kalman filter

【技术实现步骤摘要】
一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法
本专利技术属于无线传感器网络中的目标追踪
,特别是一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法。
技术介绍
无线传感器网络(wirelesssensornetworks,简称WSNs)是由部署在检测区域内的大量微型传感器节点组成的自组织网络,目的是智能监测与感知环境中各种参数的信息,并将数据发送至上层进行分析处理。目前WSNs已经具备了广泛的应用范围,包括移动目标的导航和控制、环境监测、机器状态监测和维护、灾难恢复和医疗保健等,而目标追踪是传感器网络的一个极其重要应用[YuG,RenF,JiY,etal.TheEvolutionofSinkMobilityManagementinWirelessSensorNetworks:ASurvey[J].IEEECommunicationsSurveys&Tutorials,2017,18(1):507-524.]。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合的一种方法[刘全,翟建伟,章宗长,etal.深度强化学习综述[J].计算机学报,v.41;No.421(1):3-29.],具有很强的通用性,在每个时刻智能体与环境交互得到一个高维度的观察,并利用深度强化学习的方法来感知环境,以得到具体的状态特征。同时,该方法能够基于预期回报来评价各动作的价值程度,并通过某种策略将当前状态映射为相应的动作,环境对此动作做出反应,并得到下一个时刻的观察.通过不断循环以上过程,最终可以得到实现目标的最优策略。通过进行大量的数据集训练,我们可以得到一个有着丰富经验的最优策略π[赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,045(007):1-6.]。卡尔曼滤波器算法是一种利用线性系统状态方程,通过系统输入输出观测数据,对系统状态进行最优估计的算法[G.Welch,“Anintroductiontothekalmanfilter,”SIGGRAPH2001Tutorial,2001.],卡尔曼滤波器算法在目标跟踪领域应用广泛,卡尔曼滤波在测量方差已知的情况下能够从一系列存在测量噪声的数据中,估计动态系统的状态,能够有效去除噪声还原真实数据。但是传统的卡尔曼滤波器也存在着一些无法解决的问题[WelchG,BishopG.AnintroductiontotheKalmanfilter[J].1995.],尤其是在面对探测信息丢失、目标方向发生急转等场景下,该算法会输出误差较大的信息,影响追踪精度。在目标追踪场景下,该方法需要进行改进,以面对复杂场景下的对目标追踪精度的需求。
技术实现思路
本专利技术的目的在于提供一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,从而提高复杂场景下的目标追踪精度。实现本专利技术目的的技术解决方案为:一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,包括以下步骤:步骤1、利用传感器进行数据采集,获得原始追踪场景数据;步骤2、对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;步骤3、针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π;步骤4、将最优策略π进行线下部署,应用到实际的追踪场景进行目标追踪。进一步地,步骤1所述利用传感器进行数据采集,获得原始追踪场景数据,具体如下:利用传感器收集目标追踪场景下的现实数据,并且对所收集的数据进行处理,清洗无效的数据。进一步地,步骤2中所述获得不同目标追踪场景下的数据,包括探测信息丢失、急转弯、急加速、匀速运动。进一步地,步骤3所述针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π,具体为:利用深度强化学习Actor-Critic算法,对步骤2所分类的不同目标追踪场景下的数据,经过多次训练直到算法收敛,得到一个最优策略π;策略π是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;卡尔曼滤波器根据这个最优策略选择更新方法。进一步地,针对匀速运动目标追踪场景下的数据,利用深度强化学习的方法进行多次训练直到收敛,具体为:(1)卡尔曼滤波器模型目标的运动模型建模为:X(t+1)=AX(t)+ω(t)其中X(t)是目标的状态,X(t)={x(t),y(t),vx(t),vy(t)},(x(t),y(t))代表目标在不同方向上的位置,(vx(t),vy(t))代表目标在不同方向上速度;A是一个状态转移矩阵;ω(t)表示在t时刻目标的高斯白噪声,协方差矩阵为Q;根据卡尔曼滤波得到以下更新过程:其中是t时刻目标状态的预测值;是t-1时刻的状态估计值;P′(t)=AP(t-1)AT+Q,P′(t)是t时刻的预测值与真实值之间的协方差矩阵,P(t-1)是t-1时刻估计值与真实值之间的协方差矩阵建立目标的观测模型:Z(t)=HX(t)+v(t)其中Z(t)是t时刻传感器的测量值;H是测量过程矩阵;v表示t时刻传感器的测量噪声,协方差矩阵为R;计算出t时刻的卡尔曼增益K(t)=P′(t)HT(HP′(t)HT+R)-1,同时更新t时刻的目标状态的估计值为更新得到估计值与真实值之间的协方差矩阵P(t)=(I-K(t)H)P′(t);(2)Actor-Critic算法利用深度强化学习Actor-Critic算法,对匀速运动目标追踪场景下的数据进行训练,Actor-Critic算法使用了两个神经网络:一个是Actor神经网络,用参数θ表示,用来选择动作;另一个是Critic神经网络,用参数ω表示,用来估计当前状态S的值函数V(S);两个网络在训练过程中不断的完善,最后输出Actor神经网络作为最优策略π;将Actor和Critic的神经网络设置成同样的结构,分别拥有一个输入层,一个输出层,两个隐藏层,隐藏层分别拥有128与256个节点,输入输出层的节点个数由Actor和Critic的具体要求来确定;输入当前状态S(t),定义即以t时刻的预测值和测量值为当前状态;同时定义Actor神经网络的输出为卡尔曼滤波器的更新方法,总共定义4种动作,分别是:a1:开始追踪;a2:停止追踪;a3:利用Z(t)更新卡尔曼滤波器;a4:使用更新滤波器;Actor-Critic算法的目的是使得时间平均回报最大;算法输入状态S(t)后,根据Actor神经网络输出当前动作a(t),当前动作与环境交互,即选择卡尔曼滤波器的更新方法,获得即时奖励并且转移到下一个状态S(t+1),其中为估计值与真实值的距离;通过Critic神经网络计算出时间差分误差δ(t):δ(t)=R(t)+γV(S(t+1))-V(S(t))利用δ(t)更新Actor和Critic两个神经网络的参数:<本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,包括以下步骤:/n步骤1、利用传感器进行数据采集,获得原始追踪场景数据;/n步骤2、对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;/n步骤3、针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π;/n步骤4、将最优策略π进行线下部署,应用到实际的追踪场景进行目标追踪。/n

【技术特征摘要】
1.一种基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,包括以下步骤:
步骤1、利用传感器进行数据采集,获得原始追踪场景数据;
步骤2、对原始追踪场景数据进行分类,获得不同目标追踪场景下的数据;
步骤3、针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π;
步骤4、将最优策略π进行线下部署,应用到实际的追踪场景进行目标追踪。


2.根据权利要求1所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,步骤1所述利用传感器进行数据采集,获得原始追踪场景数据,具体如下:
利用传感器收集目标追踪场景下的现实数据,并且对所收集的数据进行处理,清洗无效的数据。


3.根据权利要求1所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,步骤2中所述获得不同目标追踪场景下的数据,包括探测信息丢失、急转弯、急加速、匀速运动。


4.根据权利要求1、2或3所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,步骤3所述针对不同目标追踪场景下的数据,分别利用深度强化学习的方法进行多次训练直到收敛,获得最优策略π,具体为:
利用深度强化学习Actor-Critic算法,对步骤2所分类的不同目标追踪场景下的数据,经过多次训练直到算法收敛,得到一个最优策略π;
策略π是一个神经网路,输入为卡尔曼滤波器的预测值与传感器的测量值,输出的动作为卡尔曼滤波器的更新方法;卡尔曼滤波器根据这个最优策略选择更新方法。


5.根据权利要求4所述的基于深度强化学习更新卡尔曼滤波器的目标追踪方法,其特征在于,针对匀速运动目标追踪场景下的数据,利用深度强化学习的方法进行多次训练直到收敛,具体为:
(1)卡尔曼滤波器模型
目标的运动模型建模为:
X(t+1)=AX(t)+ω(t)
其中X(t)是目标的状态,X(t)={x(t),y(t),vx(t),vy(t)},(x(t),y(t))代表目标在不同方向上的位置,(vx(t),vy(t))代表目标在不同方向上速度;A是一个状态转移矩阵;ω(t)表示在t时刻目标的高斯白噪声,协方差矩阵为Q;
根据卡尔曼滤波得到以下更新过程:



其中是t时刻目标状态的预测值;是t-1时刻的状态估计值;P′(t)=AP(t-1)AT...

【专利技术属性】
技术研发人员:梁腾王天誉张杰李骏
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1