一种基于强化学习的无线传感器网络协同跟踪方法技术

技术编号：13456322 阅读：29 留言：0更新日期：2016-08-03 09:14

本发明专利技术公布了一种基于强化学习的无线传感器网络协同跟踪方法，主要解决了无线传感器网络协同跟踪过程中跟踪精度与能量消耗矛盾的问题。所述方法包括：采用Q学习方法，对协同跟踪过程中的簇首及簇成员进行了最优选择；通过制定簇首选择及切换强化学习函数与回报函数，得出了簇首最优选择策略及最优切换时机；在保证跟踪精度的前提下，通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。该方法在满足跟踪精度的前提下，通过减少簇内成员的使用数量以及采样次数，从而减少了节点的能量消耗，进而延长了网络的工作寿命。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于无线传感器网络
，特别是一种基于强化学习的无线传感器网络协同跟踪方法。
技术介绍
现代化战争中，由于战场环境恶劣，作战态势瞬息万变，作战指挥员需要及时掌握敌方部队的装备及人员的位置信息，进而明确敌方的作战意图。在复杂地形地物条件及严密伪装的情况下，对地面目标进行跟踪成为了光学侦查和雷达侦查的盲区。然而，无线传感器网络则可以通过探测人员及装备在地面运动时发出的声响、引起的地面震动或红外辐射变化来发现与跟踪地面运动目标，因此，无线传感器网络协同跟踪方法成为了当前的研究热点。无线传感器节点具有独立的探测、计算及通信能力，但是由于节点个体存在能量有限、资源有限和计算能力有限的约束，传感器节点独立对目标进行跟踪往往无法获得预期的效果。网络需要通过合理的节点调度方法来延长工作寿命。WSN协同跟踪中普遍采用开启跟踪目标附近传感器节点而其他节点休眠的工作形式，如何在保证跟踪精度的前提下尽可能降低网络能量消耗成为了当今学术界研究的关键问题。WSN协同跟踪问题是一种在跟踪精度与能量消耗双重约束下的最优问题，因此可以使用常用的最优求解方法对其进行处理。用于WSN协同跟踪问题处理的典型最优求解方法包括自然启发式协同跟踪方法、博弈论协同跟踪方法以及强化学习协同跟踪方法三种。JenaRK等人于2014年提出基于人工蜂群算法的无线传感器网络节点自组织方法，该方法由于考虑了群体中全局最优搜索的情况，因而能够获得最优解...

【技术保护点】
一种基于强化学习的无线传感器网络协同跟踪方法，其特征在于，包括以下步骤：第一步，根据无线传感器网络建立能量模型及跟踪精度模型。第二步，根据探测概率门限及传感器节点探测概率计算动态感知簇需要的最少簇成员个数。第三步，选择与目标位置的欧氏距离不大于节点探测半径内的所有节点进行Q值函数计算，将信息效用函数的值作为奖惩标准，从而获得令Q值最大的最优动作策略，此时获取的节点即为簇首。簇成员选择与簇首间欧氏距离不大于通讯半径的所有节点，通过将各节点信息效用函数值从大到小依次排列，选取函数值最大的最少簇成员个数的节点作为簇成员。第四步，判断跟踪精度误差是否达到精度误差门限，若精度误差大于门限值，则采样时间间隔选为最小采样时间间隔；若精度误差满足门限要求，则根据Q值函数计算获得的最优策略对采样时间间隔进行增减，最终获得最优采样时间间隔。第五步，根据动态感知簇获得的运动目标位置信息，通过扩展卡尔曼滤波算法对目标的状态进行估计，进而实现WSN协同跟踪任务。

【技术特征摘要】
1.一种基于强化学习的无线传感器网络协同跟踪方法，其特征在于，包括以下步骤：
第一步，根据无线传感器网络建立能量模型及跟踪精度模型。
第二步，根据探测概率门限及传感器节点探测概率计算动态感知簇需要的最少簇成员
个数。
第三步，选择与目标位置的欧氏距离不大于节点探测半径内的所有节点进行Q值函数
计算，将信息效用函数的值作为奖惩标准，从而获得令Q值最大的最优动作策略，此时获取
的节点即为簇首。簇成员选择与簇首间欧氏距离不大于通讯半径的所有节点，通过将各节
点信息效用函数值从大到小依次排列，选取函数值最大的最少簇成员个数的节点作为簇成
员。
第四步，判断跟踪精度误差是否达到精度误差门限，若精度误差大于门限值，则采样时
间间隔选为最小采样时间间隔；若精度误差满足门限要求，则根据Q值函数计算获得的最优
策略对采样时间间隔进行增减，最终获得最优采样时间间隔。
第五步，根据动态感知簇获得的运动目标位置信息，通过扩展卡尔曼滤波算法对目标
的状态进行估计，进而实现WSN协同跟踪任务。
2.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，
所述的簇首选择方法，具体是，在簇首选择时应满足各节点与目标间的欧氏距离r不大于节
点的探测半径RD，假设满足条件的节点个数为J时，可以定义Q值函数如下：
Q t + 1 ( s t , a t ) = ( 1 - α ) Q t ( s t , a t ) + α ( r t + γ m a x a t + 1 Q ( s t + 1 , a t + 1 ) ) - - - ( 1 ) ]]>其中，st表示当前作为簇首的节点编号j；at表示对应的动作，具有保持与更新两种形
式。
3.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，
所述的簇首选择回报函数，具体是，回报函数如下：
其中，表示基于马氏距离的信息效用函数，用于刻画节点跟踪能力
的强弱。
4.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，
所述的簇首切换方法，具体是，根据簇首能量有限及对目标的跟踪受到簇成员探测半径RD的限制，定义Q值函数如下：
Q k + 1 ( s k , a k ) = ( 1 - α ) Q k ( s k , a k ) + α ( r k + γ m a x a k + 1 Q ( s k + 1 , a k + 1 ) ) - - - ( 3 ) ]]>其中，sk表示当前簇首工作模式；ak表示簇首采用的动作，具有保持与切换两种形式。当
选择保持动作时，sk＝0，簇首工作在探测模式；当选择切换动作时，sk＝1，簇首工作在切换
模式。
5.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法，其特征在于，
所述的簇首切换回报函数，具体是，回报函数如下：
r C C ( k ) = { 1 E C H ( k ) > E C C _ C H + E L O W o r r j < R D j 0 E C H ( k ) ...

【专利技术属性】
技术研发人员：丁勇，张祺琛，柏茂羽，胡忠旺，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人