一种基于强化学习的无线传感器网络协同跟踪方法技术

技术编号:13456322 阅读:29 留言:0更新日期:2016-08-03 09:14
本发明专利技术公布了一种基于强化学习的无线传感器网络协同跟踪方法,主要解决了无线传感器网络协同跟踪过程中跟踪精度与能量消耗矛盾的问题。所述方法包括:采用Q学习方法,对协同跟踪过程中的簇首及簇成员进行了最优选择;通过制定簇首选择及切换强化学习函数与回报函数,得出了簇首最优选择策略及最优切换时机;在保证跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。该方法在满足跟踪精度的前提下,通过减少簇内成员的使用数量以及采样次数,从而减少了节点的能量消耗,进而延长了网络的工作寿命。

【技术实现步骤摘要】

本专利技术属于无线传感器网络
,特别是一种基于强化学习的无线传感器网络协同跟踪方法
技术介绍
现代化战争中,由于战场环境恶劣,作战态势瞬息万变,作战指挥员需要及时掌握敌方部队的装备及人员的位置信息,进而明确敌方的作战意图。在复杂地形地物条件及严密伪装的情况下,对地面目标进行跟踪成为了光学侦查和雷达侦查的盲区。然而,无线传感器网络则可以通过探测人员及装备在地面运动时发出的声响、引起的地面震动或红外辐射变化来发现与跟踪地面运动目标,因此,无线传感器网络协同跟踪方法成为了当前的研究热点。无线传感器节点具有独立的探测、计算及通信能力,但是由于节点个体存在能量有限、资源有限和计算能力有限的约束,传感器节点独立对目标进行跟踪往往无法获得预期的效果。网络需要通过合理的节点调度方法来延长工作寿命。WSN协同跟踪中普遍采用开启跟踪目标附近传感器节点而其他节点休眠的工作形式,如何在保证跟踪精度的前提下尽可能降低网络能量消耗成为了当今学术界研究的关键问题。WSN协同跟踪问题是一种在跟踪精度与能量消耗双重约束下的最优问题,因此可以使用常用的最优求解方法对其进行处理。用于WSN协同跟踪问题处理的典型最优求解方法包括自然启发式协同跟踪方法、博弈论协同跟踪方法以及强化学习协同跟踪方法三种。JenaRK等人于2014年提出基于人工蜂群算法的无线传感器网络节点自组织方法,该方法由于考虑了群体中全局最优搜索的情况,因而能够获得最优解,但算法本身仍具有陷入局部最优解的可能以及收敛速度慢的缺点。LinX-H等人于2015年提出基于博弈论的无线传感器网络能量消耗平衡方法,进而实现网络性能指标的最优求解。但是,使用博弈论的思想对无线传感器网络协同跟踪问题进行求解时,由于难以选择合适的近似博弈模型,因而得到的结果往往并非是真正适合网络的最优解。S.Pino-Povedano等人于2014年提出基于强化学习的无线传感器网络协同跟踪方法,进而实现减少网络能量消耗的目的。该方法具有必然能够获取最优解的优势,但仍存在着寻优过程较长的缺陷。
技术实现思路
本专利技术所解决的技术问题在于提供一种基于强化学习的无线传感器网络协同跟踪方法(ReinforcementLearningCollaborativeTrackingAlgorithm,RLCTA)。实现本专利技术目的的技术解决方案为:基于强化学习的无线传感器网络协同跟踪算法包括动态节点选择与目标状态估计两部分。首先,采用动态联盟的思想,通过目标运动触发机制,在目标附近建立无线传感器网络动态感知簇,通过制定簇首选择及切换强化学习函数与回报函数,得出了簇首最优选择策略及最优切换时机。在保证跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔的方式降低了网络能量消耗。然后,根据动态感知簇获得的运动目标位置信息,通过扩展卡尔曼滤波算法对目标的状态进行估计,进而实现WSN协同跟踪任务。本专利技术与现有技术相比具有以下优点:1.通过Q学习方法获得簇首最优动作策略,进行最优簇首切换及簇成员的最优选择;在满足跟踪精度的前提下,通过减少簇成员个数和动态选择采样时间间隔降低网络能耗。2.针对无线传感器网络协同跟踪中的能量消耗问题,建立跟踪精度误差门限以及探测概率门限,进而确定了簇成员最少使用个数,在此基础上建立动态感知簇,从而保证了跟踪精度允许误差范围内的能量消耗最小。下面结合附图对本专利技术作进一步详细描述。附图说明图1为本专利技术的流程图。图2为无线传感器网络协同跟踪仿真场景图。图3为跟踪误差比较图。图4为算法能耗对比图。具体实施方式依据附图,对本专利技术的技术方案作具体说明。所述基于强化学习的无线传感器网络协同跟踪方法,包括以下步骤:步骤1、首先,对无线传感器网络进行能量模型建立。根据使用形式不同,消耗能量可以分为四类基本类型:传感器探测能量消耗Es,节点发射数据能量消耗Et,节点接收数据能量消耗Er以及节点进行数据融合能量消耗Ef。Es与使用传感器进行探测的次数有关,每进行一次探测消耗的能量为一常数。Et和Er均与进行通信的数据量有关,当发射(接收)b比特数据时,消耗能量可以分别表示为: E t ( s m , s n ) = ( e t + e d r m n β ) b - - - ( 1 ) ]]>Er(sk)=erb(2)其中,sm表示数据发射节点,sn表示数据接收节点,et表示射频能耗系数,ed表示电路放大系数,rmn表示节点m与节点n之间的欧氏距离,β表示路径衰减系数;er表示射频消耗系数。Ef与参与数据融合的数据量大小有关,当融合b比特数据时,消耗能量可以表示为:Ef=efb(3)其中,ef表示融合单位比特数据时消耗的能量。考虑跟踪精度约束对模型的影响,定义跟踪精度门限为Φ0,探测概率门限θd。为了保证跟踪精度满足要求,k时刻跟踪精度误差Φ(k)与探测概率Pr(k)需要满足:Φ(k)≤Φ0(4)Pr(k)≤θd(5)步骤2、选取簇成员个数。簇成员个数的选择与探测概率Pr(k)有关。对网络覆盖区域的运动目标进行跟踪时,假设需要M个节点同时进行探测,每个节点的探测概率均设为α,则此时的探测概率可以表示为:Pr(k)=1-(1-α)M(6)由式(5)和(6)可得簇成员个数为: M ≥ - l o g ( 1 - θ d ) - l o g ( 本文档来自技高网
...

【技术保护点】
一种基于强化学习的无线传感器网络协同跟踪方法,其特征在于,包括以下步骤:第一步,根据无线传感器网络建立能量模型及跟踪精度模型。第二步,根据探测概率门限及传感器节点探测概率计算动态感知簇需要的最少簇成员个数。第三步,选择与目标位置的欧氏距离不大于节点探测半径内的所有节点进行Q值函数计算,将信息效用函数的值作为奖惩标准,从而获得令Q值最大的最优动作策略,此时获取的节点即为簇首。簇成员选择与簇首间欧氏距离不大于通讯半径的所有节点,通过将各节点信息效用函数值从大到小依次排列,选取函数值最大的最少簇成员个数的节点作为簇成员。第四步,判断跟踪精度误差是否达到精度误差门限,若精度误差大于门限值,则采样时间间隔选为最小采样时间间隔;若精度误差满足门限要求,则根据Q值函数计算获得的最优策略对采样时间间隔进行增减,最终获得最优采样时间间隔。第五步,根据动态感知簇获得的运动目标位置信息,通过扩展卡尔曼滤波算法对目标的状态进行估计,进而实现WSN协同跟踪任务。

【技术特征摘要】
1.一种基于强化学习的无线传感器网络协同跟踪方法,其特征在于,包括以下步骤:
第一步,根据无线传感器网络建立能量模型及跟踪精度模型。
第二步,根据探测概率门限及传感器节点探测概率计算动态感知簇需要的最少簇成员
个数。
第三步,选择与目标位置的欧氏距离不大于节点探测半径内的所有节点进行Q值函数
计算,将信息效用函数的值作为奖惩标准,从而获得令Q值最大的最优动作策略,此时获取
的节点即为簇首。簇成员选择与簇首间欧氏距离不大于通讯半径的所有节点,通过将各节
点信息效用函数值从大到小依次排列,选取函数值最大的最少簇成员个数的节点作为簇成
员。
第四步,判断跟踪精度误差是否达到精度误差门限,若精度误差大于门限值,则采样时
间间隔选为最小采样时间间隔;若精度误差满足门限要求,则根据Q值函数计算获得的最优
策略对采样时间间隔进行增减,最终获得最优采样时间间隔。
第五步,根据动态感知簇获得的运动目标位置信息,通过扩展卡尔曼滤波算法对目标
的状态进行估计,进而实现WSN协同跟踪任务。
2.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,
所述的簇首选择方法,具体是,在簇首选择时应满足各节点与目标间的欧氏距离r不大于节
点的探测半径RD,假设满足条件的节点个数为J时,可以定义Q值函数如下:
Q t + 1 ( s t , a t ) = ( 1 - α ) Q t ( s t , a t ) + α ( r t + γ m a x a t + 1 Q ( s t + 1 , a t + 1 ) ) - - - ( 1 ) ]]>其中,st表示当前作为簇首的节点编号j;at表示对应的动作,具有保持与更新两种形
式。
3.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,
所述的簇首选择回报函数,具体是,回报函数如下:
其中,表示基于马氏距离的信息效用函数,用于刻画节点跟踪能力
的强弱。
4.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,
所述的簇首切换方法,具体是,根据簇首能量有限及对目标的跟踪受到簇成员探测半径RD的限制,定义Q值函数如下:
Q k + 1 ( s k , a k ) = ( 1 - α ) Q k ( s k , a k ) + α ( r k + γ m a x a k + 1 Q ( s k + 1 , a k + 1 ) ) - - - ( 3 ) ]]>其中,sk表示当前簇首工作模式;ak表示簇首采用的动作,具有保持与切换两种形式。当
选择保持动作时,sk=0,簇首工作在探测模式;当选择切换动作时,sk=1,簇首工作在切换
模式。
5.根据权利要求1所述的基于强化学习的无线传感器网络协同跟踪方法,其特征在于,
所述的簇首切换回报函数,具体是,回报函数如下:
r C C ( k ) = { 1 E C H ( k ) > E C C _ C H + E L O W o r r j < R D j 0 E C H ( k ) ...

【专利技术属性】
技术研发人员:丁勇张祺琛柏茂羽胡忠旺
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1