一种无线传感器网络参数自适应调节方法技术

技术编号:20569057 阅读:16 留言:0更新日期:2019-03-14 11:00
本发明专利技术公开了一种无线传感器网络参数自适应调节方法,使用星型网络拓扑模型,传感器网络由传感器节点与协调器构成,节点用于采集传感器数据,协调器作为整个传感器网络的汇聚设备,用于收集节点上传的传感器数据。无线传感器网络通信中采用的是基于时隙CSMA/CA的802.15.4协议,并利用Q‑learning学习算法对协议的参数设置进行动态优化,可以有效地解决802.15.4协议对位置网络环境的适应性问题,并在提高网络服务质量的同时,有效地降低了网络的开销,使其成为一种适应性强、实时性高、服务质量好的无线传感器网络的优化方法。

【技术实现步骤摘要】
一种无线传感器网络参数自适应调节方法
本专利技术涉及无线传感器网络的MAC层接入技术和Q学习算法,基于IEEE802.15.4通信协议中基本的MAC接入机制CSMA/CA技术,通过Q学习算法对该接入机制的重要参数进行调节,从而优化无线传感器网络的服务质量。具体是一种无线传感器网络中基于分布式Q学习的参数自适应调节方法。
技术介绍
在低时延确定性的无线传感器网络中,基于CSMA/CA接入机制的802.15.4协议得到了广泛应用。但由于CSMA/CA是竞争型的MAC协议,各个节点在接入信道和发送数据的时候可能会发生碰撞,因此需要进行空闲信道检测、退避和重传。在标准的CSMA/CA机制中,退避和重传次数一般设为默认值,并且无法针对不同的网络进行动态设置,这就造成了在某些信道状况不佳、服务质量要求较高的通信环境中无法满足要求的问题。由于应用的需要,目前对MAC层接入协议的研究中,也提出了一些调节网络参数以适应通信指标要求的调节方法。这些调节方法多数需要由传感器节点根据通信质量向协调器节点发送配置请求帧,请求分配相应的通信资源,而协调器根据各个节点发送的请求帧为节点分配优先级或时隙。这种优化方法的优点是协调器可以根据节点信息的重要性提供差异化服务,并且分配专用时隙可以有效地避免因为碰撞造成的丢包等问题。但由于增加了配置请求帧和配置帧的,导致网络整体的能耗以及通信的复杂度大大上升,对于使用电池供电的传感器节点来说,会导致网络的寿命缩短。因此,一个可以对网络参数进行自适应调节的接入机制优化方法是迫切的现实需求。在现在的自适应调节方法中,各种学习算法是研究的热点。其中Q学习算法由于是无模型的学习算法,可以有多个代理,学习机制是分布式的,并且算法复杂度较低,因此得到了广泛的应用。使用Q学习算法的应用由于无需和环境中的其他智能体进行信息交换,而是通过自身获得的奖励对每个“状态-动作”对的Q值进行更新。考虑到无线传感器网络是一种能量有限并且低时延确定性的网络,结合Q学习算法来优化网络的有效传输率和时延显得十分有应用价值。
技术实现思路
本专利技术提出一种无线传感器网络中基于Q学习的参数自适应调节方法,该方法结合CSMA/CA接入机制的特点来满足网络有效传输率和时延的要求,采用Q学习算法,可以有效地提高算法的收敛速率,减少计算的复杂度,是一种开销较小的参数设置方法。一种无线传感器网络中基于Q学习的参数自适应调节方法,以网络通信时延D以及网络有效传输率R作为目标函数,以传感器节点作为智能体,以无线传感器网络的环境状态作为Q学习的环境状态集合S,每次通信中各个节点的通信参数的设置动作作为智能体代理的动作集合A,以传感器网络节点所采用的通信参数与其的通信时延以及有效传输率之间的对应关系作为各个传感器节点的瞬时反馈奖励函数,采用分布式Q学习迭代算法对网络中各个节点的通信参数进行设置,在迭代过程中设置探索策略函数。由于假设环境状态不发生改变,因此转移概率公式和Q值函数的迭代公式属于已知公式。在一次发送过程中,子节点需要进行两次空闲信道检测,在两次信道检测结果均为空闲的情况下才可以进行发送。一般将第一次和第二次空闲信道检测失败的概率之和设为x。如果信道检测失败,则会进入退避周期,随机退避一段时间,在退避结束之后,又会重新进行空闲信道检测。退避的次数是有限制的,其必须小于最大退避次数m,在退避次数到达m时,则本次发送失败。而如果成功接入信道并发送了数据帧,但没有收到协调器返回的ACK时,则传感器节点会进行重传,重传的步骤与正常发送的步骤相同。若重传次数达到最大重传次数n时,则本次发送失败。这里将在每一次发送(包括正常的发送和重传)中成功接入信道但因为数据帧传输失败而进入下一次重传或发送失败的概率设为y。在第t次数据传输中,单个无线传感器节点的有效传输率R(t)和时延D(t)的计算方式如下所示:其中y=Pc(1-xm+1)。其中Ts为数据帧成功发送的时间,Tc为数据帧传输中发生碰撞的时间,而表示的是近似的退避周期,其可以重写为:其中Sb指的是时间单元aUnitBackoffPeriod(20个符号)。γ=max(α,(1-α)β),α和β分别指的是第一次和第二次空闲信道检测失败的概率,m为最大退避次数,W0指的是第一次退避中的最小退避时间。从公式(1)、(2)和(3)可以看出,由于假设环境状态不发生改变,因此CCA检测失败概率x、传输失败概率(即传感器节点成功接入信道并发送数据给协调器,但未接收到协调器返回的ACK的概率)y、最小退避时间W0,以及数据帧成功发送的时间Ts和数据帧传输中发生碰撞的时间Tc均为常数不发生改变,有效传输率和时延只与最大退避次数m和最大重传次数n有关。以网络通信时延D以及网络有效传输率R作为目标函数,具体计算公式如下:其中Rmin为网络有效传输率所允许的最小值,该值根据实际的通信情况进行决定。其中Dmax为网络通信时延所允许的最大值。所述探索策略是最简单的ε-greedy作为动作选择策略,它使用随机接收准则进动作作选择,每次除选择估计价值最优的动作外,还以一个较小的概率有限度地接收估计价值次优的动作,这使得搜索算法有可能跳出搜索空间中局部最优子空间的陷阱,寻找到最优的动作选择策略。其探索策略公式为:“探索”即随机策略,是为了对“状态-动作”空间实现遍历,从而避免算法收敛于一个局部最优解,其概率为ε;而“利用”即贪婪策略,即智能体以概率1-ε选择该策略,并从查找表中选择对应Q值最大的动作作为下一个学习周期中智能体所采用的动作。其可以防止学习过程过于震荡而不收敛。所述在无线传感器网络中采用分布式Q学习算法对各个传感器节点的通信参数进行优化的具体过程如下:步骤1:初始化各个动作的Q值,一般情况下将它们都初始化为0;步骤2:观察现状态s;步骤3:通过Q(s,a)求出策略π(s,a),从而对探索新动作和利用现在动作的概率进行平衡;步骤4:根据代理策略π(s,a)选择一个动作a;步骤5:执行动作a并观察所得到的奖励r和下一个状态s′;步骤6:使用公式Qt(a)=Qt-1(a)+αt[rt-Qt-1(a)]对Q(s,a)的值进行更新;步骤7:将现状态s变为s′;步骤8:重复4—8的步骤:,直到Q(s,a)的值收敛Q值的更新公式为Qt(a)=Qt-1(a)+αt[rt-Qt-1(a)],其中其中αt为学习速率,rt为奖励。学习速率αt决定了Q学习算法的收敛速率,αt越大,“状态-动作”对的收敛速率也越快。但收敛速率过快会导致学习算法出现局部最优解的问题。因此,一般情况下令学习速率αt=0.1,以保证学习算法能够正常地工作。根据通信的实际要求,我们将网络有效传输率R所允许的最小值Rmin设置为99%,即在100个数据帧中只允许1个丢帧存在。根据Q学习的机制,Q值是瞬时更新的,因此每一成功收包或者丢包都会给予动作相应的奖励与惩罚。由于有效传输率的阈值Rmin=99%,则我们要保证Q值在有效传输率低于为99%的情况下为负值,而在99%的情况下为正值。这样才能够保证满足要求的动作即(m,n)的Q值可以收敛到1,而不满足要求的动作的Q值则会收到惩罚收敛为负值或0。若有限传输率的阈值为Rmin=99%,则对于收包的奖励和丢包的惩罚应该满足:本文档来自技高网
...

【技术保护点】
1.一种无线传感器网络参数自适应调节方法,其特征在于,使用Q学习算法,对基于星型拓扑、采用基于CSMA/CA接入机制的IEEE 802.15.4通信协议的无线传感器网络中各个传感器节点的最大退避次数和最大重传次数进行动态调节,以满足传感器节点有效传输率和时延的要求。在本星型网络拓扑模型,传感器网络由传感器节点与协调器构成,节点用于采集传感器数据,协调器作为整个传感器网络的汇聚设备,用于收集节点上传的传感器数据。在传感器网络中,传感器节点使用的是精简功能节点(RFD),它们只能与协调器节点进行信息交互,即传感器节点之间不能进行直接通信,传感器节点如果向获取网络中其他节点的信息,则只能通过协调器进行转发。本自适应调节方法以网络通信时延D以及网络有效传输率R作为目标函数,以传感器节点作为智能体,以无线传感器网络的环境状态S(t)作为Q学习的环境状态集合S,每次通信中各个节点的通信参数的设置动作A(t)作为智能体代理的动作集合A,以传感器网络节点所采用的通信参数与其的通信时延以及有效传输率之间的对应关系作为各个传感器节点的瞬时反馈奖励函数,采用分布式Q学习迭代算法对网络中各个节点的通信参数进行设置,在迭代过程中设置探索策略函数π(s,a)。其中,由于我们研究的场景是无线传感器网络对未知环境的自适应能力,而不是无线传感器网络对动态变化的通信环境的适应能力,因此作为状态S(t)基本上不会因时间t的变化而发生改变。综上,本自适应调节方法的具体实施步骤如下所示:步骤1:初始化各个动作的Q值,一般情况下将它们都初始化为0;步骤2:观察现状态s;步骤3:通过Q(s,a)求出策略π(s,a),从而对探索新动作和利用现在动作的概率进行平衡;步骤4:根据代理策略π(s,a)选择一个动作a;步骤5:执行动作a并观察所得到的奖励r和下一个状态s′;步骤6:使用Q值更新公式对Q(s,a)的值进行更新;步骤7:将现状态s变为s′;步骤8:重复4—8的步骤:,直到Q(s,a)的值收敛。...

【技术特征摘要】
1.一种无线传感器网络参数自适应调节方法,其特征在于,使用Q学习算法,对基于星型拓扑、采用基于CSMA/CA接入机制的IEEE802.15.4通信协议的无线传感器网络中各个传感器节点的最大退避次数和最大重传次数进行动态调节,以满足传感器节点有效传输率和时延的要求。在本星型网络拓扑模型,传感器网络由传感器节点与协调器构成,节点用于采集传感器数据,协调器作为整个传感器网络的汇聚设备,用于收集节点上传的传感器数据。在传感器网络中,传感器节点使用的是精简功能节点(RFD),它们只能与协调器节点进行信息交互,即传感器节点之间不能进行直接通信,传感器节点如果向获取网络中其他节点的信息,则只能通过协调器进行转发。本自适应调节方法以网络通信时延D以及网络有效传输率R作为目标函数,以传感器节点作为智能体,以无线传感器网络的环境状态S(t)作为Q学习的环境状态集合S,每次通信中各个节点的通信参数的设置动作A(t)作为智能体代理的动作集合A,以传感器网络节点所采用的通信参数与其的通信时延以及有效传输率之间的对应关系作为各个传感器节点的瞬时反馈奖励函数,采用分布式Q学习迭代算法对网络中各个节点的通信参数进行设置,在迭代过程中设置探索策略函数π(s,a)。其中,由于我们研究的场景是无线传感器网络对未知环境的自适应能力,而不是无线传感器网络对动态变化的通信环境的适应能力,因此作为状态S(t)基本上不会因时间t的变化而发生改变。综上,本自适应调节方法的具体实施步骤如下所示:步骤1:初始化各个动作的Q值,一般情况下将它们都初始化为0;步骤2:观察现状态s;步骤3:通过Q(s,a)求出策略π(s,a),从而对探索新动作和利用现在动作的概率进行平衡;步骤4:根据代理策略π(s,a)选择一个动作a;步骤5:执行动作a并观察所得到的奖励r和下一个状态s′;步骤6:使用Q值更新公式对Q(s,a)的值进行更新;步骤7:将现状态s变为s′;步骤8:重复4—8的步骤:,直到Q(s,a)的值收敛。2.根据权利要求1所述的无线传感器网络参数自适应调节方法,其特征在于,无线传感器网络通信中采用的是基于时隙CSMA/CA的802.15.4协议。在无线传感器网络中,各个节点是使用竞争型的MAC协议进行信道接入的。在接入信道之前,节点首先会进行两次空闲信道检测(CCA),其目的在于避免两个传感器节点同时接入信道导致数据帧发生碰撞,导致节点的有效传输率下降以及通信时延上升。如果两次空闲信道检测中有一次的结果为信道繁忙,则会进入退避阶段。在退避阶段,节点处于睡眠状态或空闲状态。在退避阶段结束之后,传感器节点又会进行两次空闲信道检测。若又检测出信道繁忙,则重复进行退避和空闲信道检测。当退避的次数达到最大退避次数,而传感器节点仍未接入信道,则认为本次发送失败。若在达到最大退避次数之前成功接入信道,则传感器节点会将配置好的数据帧发送给协调器节点,并等待协调器节点返回ACK确认帧。若在规定的时间内未收到协调器返回的确认帧,则认为发送失败,于是会重新进入信道接入阶段,进行重传。若重传次数达到无线传感器网络设置的最大重传次数仍未收到协调器返回的确认帧,则会认为本次发送失败。若收到了确认帧,则本次发送成功,传感器节点等待下一次发送。3.根据权利要求2所述,在无线传感器网络的通信中,最大退避次数和最大重传次数是影响传感器节点通信质量的主要指标,两者设置的值越大,则传感器节点通信的可靠性也会越高。但两者并不是可以无限增加的,两者都有各自的取值范围。最大退避次数可以取的最大值为5,而最大重传次数可以取的最大值为7。除此之外,随着最大退避次数和最大重传次数的上升,传感器节点的通信时延也会大大上升。因此,为了保证传感器节点的时延参数不超过要求的阈值,需要对最大退避次数和最大重传次数的值进行调节。4.根据权力要求1所述,本无线传感器网络参数自适应调节方法的特征在于,使用Q学习算法对传感器节点的最大退避次数和最大重传次数进行动态调节,以满足传感器节...

【专利技术属性】
技术研发人员:刘元安李尚南张洪光范文浩吴帆
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1