一种基于智能时隙选择的信道接入方法技术

技术编号:20925801 阅读:32 留言:0更新日期:2019-04-20 11:44
本发明专利技术公布了一种基于智能时隙选择的信道接入方法和装置。主要解决了无线传感器网络中网络的动态拓扑性与信道的高效利用无法同时存在的问题。所述方法包括:对无线传感器网络进行模型建立,完成无线传感器网络环境与强化学习方法相结合;确定自定义的帧结构以及时隙数量;初始化状态值向量V(s)以及时隙选择概率Pi;依据时隙选择概率Pi选择时隙进行发送,根据信道接入的反馈情况更新各时隙的奖励值;然后根据各个节点的奖励更新对应时隙的状态值v以及资格迹δ;更新完毕以后,对各个节点状态进行评估,当Vi>Vth时,认为该节点在第i个时隙处于稳定状态,最后根据以上的状态评估结果以及状态值,调整玻尔兹曼策略的温度因子参数,选择该节点的最优时隙进行发送。本发明专利技术实施例,即保证了无线传感器网络的信道利用率,又提高了无线传感器网络的可靠性,具有广泛的应用价值。

A Channel Access Method Based on Intelligent Slot Selection

The invention discloses a channel access method and device based on Intelligent slot selection. It mainly solves the problem that the dynamic topology of wireless sensor networks and the efficient utilization of channels can not simultaneously exist. The methods include: model building of wireless sensor network, combining the environment of wireless sensor network with reinforcement learning method, determining the frame structure and the number of time slots, initializing the state value vector V (s) and slot selection probability Pi, selecting slots according to slot selection probability Pi for transmission, and updating the rewards of each slot according to the feedback of channel access. Then, according to the reward of each node, the state value V and qualification trace delta of the corresponding slot are updated. After the update, the state of each node is evaluated. When Vi > Vth, the node is considered to be in a stable state in the first slot. Finally, according to the above state evaluation results and the state value, the temperature factor parameters of Boltzmann strategy are adjusted to select the optimal time of the node. Gaps are sent. The embodiment of the present invention not only ensures the channel utilization rate of wireless sensor networks, but also improves the reliability of wireless sensor networks, and has wide application value.

【技术实现步骤摘要】
一种基于智能时隙选择的信道接入方法
本专利技术属于无线传感器网络
,特别涉及一种基于智能时隙选择的信道接入方法。
技术介绍
近年来,无线传感器网络成为当前信息领域中研究的热点之一,可用于特殊环境实现信号的采集、处理和发送。无线传感器网络作为一种全新的信息获取和处理技术,由于其规模小、能耗低等特点,在现实生活中得到了越来越广泛的应用。目前,无线传感器网络中MAC(MediumAccessControl,介质访问控制)层协议采用的信道接入方式主要有两种:一是CSMA/CA(CarrierSenseMultipleAccesswithCollisionAvoidance,载波侦听多路访问/冲突避免)机制,一种是TDMA(TimeDivisionMultipleAccess,时分多址)机制。CSMA/CA机制主要应用于节点随机接入的场景中,各节点通过竞争的方式接入信道,通过随机退避以及确认重传等机制保证网络的服务质量,因此网络的自适应能力强;但在高流量下信道利用率低,只适用于数据量少的无线传感器网络。TDMA机制通过信标帧同步分配时隙的方式接入信道,在信标帧中包含超帧信息和每个传感器节点的时隙信息。主要应用于有控制节点对其他节点进行调度的场景,这种机制对时间同步要求严格,故在节点之间需要大量的交互信息,由于信标帧中包括的超帧信息和时隙信息是固定不变的,因此对突发时间没有处理能力,动态拓扑性差。随着人工智能技术的不断发展,将其应用于无线传感器网络以提高网络性能得到了越来越多的兴趣,目前人工智能的一个分支强化学习RL(ReinforcementLearning)已应用于无线传感器网络的路由、任务调度以及休眠机制等各个方面。强化学习RL的目的是通过与周围环境的试错互动来估计每个状态-动作对的长期回报。RL方法采用无监督和在线学习,通过无监督的学习,不需要外界监督学习过程;因此,决策者(或代理人)必须自己努力学习有关周围环境的知识。通过在线学习,决策者(或代理人)在正常运行的同时获取知识;因此,强化学习方法并不需要在训练之间收集环境的数据集。强化学习是一个多功能和通用的解决方案。
技术实现思路
本专利技术实施例提供一种基于智能时隙选择的信道接入方法,以综合两种传统的信道接入方法的优势,提高无线传感器网络的信道利用率与动态拓扑性。为达到上述目的,本专利技术实施例提供了基于智能时隙选择的信道接入方法,应用于无线传感器网络中的传感器节点,方法包括:根据无线传感器网络环境进行模型建立,将强化学习应用到无线传感器网络的环境之中;具体的,根据强化学习中元素定义时隙分配问题,Agent表示具有独立决策能力的传感器节点,环境(Environment)表示传感器节点周围的信道环境,动作(Action)表示节点选择某一时隙进行数据传输,状态(State)有两层含义:一是表示传感器节点的状态,一是表示无线传感器网络的状态,策略(Policy)表示Agent在某一状态下以何种方式选择下一个时隙;利用状态值函数来表示传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报,这样将智能时隙选择问题转化为学习节点最优策略问题;根据状态值函数表示节点从起始状态开始遵循最优策略获得的最大折扣累积回报,从而可以反推出最优策略。在无线传感器网络节点接入信道之前,需要初始化每个节点的状态参数的参数值以及时隙选择的概率;具体的,采用S-ALOHA帧结构,其中S-ALOHA将时间分成重复帧,在每一帧中包括固定数量的时隙作为系统宽度参数,节点之间的同步时间被嵌入到协调器发送的ACK包中,这样使得发送节点能够与协调器之间保持同步。所以在目标帧格式中必须有分成固定数量的时隙以及同步信息;需要说明的是,节点的时隙应该被适当设置以便允许每个节点都有机会具有唯一的时隙,时隙的数量不能少于网络中节点的个数,在单跳网络中,节点的时隙数量被设置为传感器网络中节点的数量为最优,在多跳网络中,可以根据节点的密度、网络的拓扑结构以及路由节点的数量等相关参数综合分析得出。每个节点需要维护一个状态值向量,每个时隙绑定一个对应的状态值,初始化起始状态值向量,并且初始化起始时隙选择概率;具体的,每个节点在帧中的每个时隙都应该有一个独立的值,即状态值函数,代表传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报。在初始状态下,每个节点的时隙对应的状态值相等,且均为零,同时,其对应的概率也均等,意味着初始阶段随机接入。根据时隙被选择的概率抽取某一时隙作为该节点下一次发送的时隙,然后在该时隙处接入信道;具体的,在学习过程中,按照一定的策略(Policy)选择下一个动作,如果传输成功则奖励为正,传输失败则奖励为负(即惩罚),这样具有高状态值的时隙会被优先选择,通过这种学习过程会使得整个网络的所有节点都有其唯一的时隙进行传输。根据接入信道的情况(成功或者失败)对各个时隙所绑定的状态值进行更新,具体步骤包括:根据信道接入情况给予对应时隙奖惩,接入成功的时隙会收到一个正的奖励,接入失败的时隙会收到一个负的反馈;根据确定的奖惩情况,采用时间差分(TD)学习方法对各个时隙的状态值进行更新。具体的,每个时隙对应的状态值函数是传感器节点WSN信道环境不断试错学习的一个长期化的折扣累积回报。学习的最终目的是找到一个最优策略,使得每个节点拥有一个最大累积回报的状态,其中,在状态值更新中引入资格迹,使时间差分(TD)学习方法更有效率和更快收敛,因此,节点在维护一个状态值向量的同时也需要维护一个资格迹向量。具体而言,资格迹模拟了一个短期记忆过程,资格迹表示对该事件的一个随时间逐渐衰减的记忆。资格大小的不同会导致不同的更新幅度,具有较大资格的时隙会获得较大的更新幅度,即其分配到较大的时间信度;同样地,资格小的时隙将会获得较小的时间信度,表示该时隙获得奖励或惩罚较小。资格迹就是用来追踪每个时隙对与该传感器节点而言选择接入信道的资格大小。根据节点的历史接入信息,确定下一阶段智能时隙选择的步骤,包括:将每个节点的各时隙的状态值维护为一个状态值向量;根据节点的状态值向量,利用玻尔兹曼策略对状态值向量中的各值进行综合评估。具体的,将智能时隙选择分为三个阶段,通过设置温度因子使玻尔兹曼策略对各时隙状态值的差值不敏感,即各个时隙尽量均等选择;中期阶段,通过设置温度因子使得玻尔兹曼策略对各时隙状态值的差值表现敏感,即尽可能多选择状态值较大的时隙进行发送;稳定阶段,调节温度因子使得非最优值的时隙的选择概率尽可能小。需要说明的是,节点接入信道的整个过程是一个分布式的学习过程。各个节点各自学习,学习过程会导致一个节点的每个时隙都具有不同的状态值。由状态值函数迭代方程可知,每个节点的状态值更新只与该节点的传输历史以及当前传输的质量有关,与其他节点的任何因素都无关,故一个节点的信道接入、退出或者损坏对其他节点的数据传输无影响,因此,所有传感器节点的学习是分布式,互不影响。利用时间差分(TD)学习方法使得整个网络区域的所有节点都寻找到属于自己的唯一时隙,它的行为类似于基于调度的网络,但不需要对每个时隙中的节点优先级进行调度信息交换。具体的,当网络收敛于稳定状态时,节点实现完美的调度,并具有相同的服务质量。需要说明的是,学习算法本文档来自技高网
...

【技术保护点】
1.一种基于智能时隙选择的信道接入方法,其特征在于,其步骤包括:第一步,根据无线传感器网络环境进行模型建立,将强化学习应用到无线传感器网络的环境之中。将无线传感器节点抽象成具有一定决策能力的Agent,使时间差分(TD)强化学习与信道接入相结合,并对时间差分(TD)强化学习的奖惩函数进行改进;第二步,根据节点数量确定目标帧格式,确定帧结构的同步信息与时隙数量,以范围内节点的数量确定帧格式中时隙的数量,并将用于节点之间同步的信息嵌入ACK确认帧中;第三步,每个节点维护一个状态值向量,为每个时隙绑定一个对应的状态值,初始化节点的状态值向量,使节点从零开始学习,并且初始化起始时隙选择概率,使得节点在起始阶段随机接入;第四步,每个节点依据概率随机接入信道,通过信道接入反馈情况更新奖励,当节点接入成功之后,反馈一个正的奖励,若节点接入失败,则会收到一个负的惩罚;第五步,根据第四步接入信道的情况与奖励,利用时间差分(TD)强化学习方法对该时隙对应的状态值向量进行更新,同时为了体现时隙接入信道的一个资格,对其资格迹也进行更新及维护,更新如下:

【技术特征摘要】
1.一种基于智能时隙选择的信道接入方法,其特征在于,其步骤包括:第一步,根据无线传感器网络环境进行模型建立,将强化学习应用到无线传感器网络的环境之中。将无线传感器节点抽象成具有一定决策能力的Agent,使时间差分(TD)强化学习与信道接入相结合,并对时间差分(TD)强化学习的奖惩函数进行改进;第二步,根据节点数量确定目标帧格式,确定帧结构的同步信息与时隙数量,以范围内节点的数量确定帧格式中时隙的数量,并将用于节点之间同步的信息嵌入ACK确认帧中;第三步,每个节点维护一个状态值向量,为每个时隙绑定一个对应的状态值,初始化节点的状态值向量,使节点从零开始学习,并且初始化起始时隙选择概率,使得节点在起始阶段随机接入;第四步,每个节点依据概率随机接入信道,通过信道接入反馈情况更新奖励,当节点接入成功之后,反馈一个正的奖励,若节点接入失败,则会收到一个负的惩罚;第五步,根据第四步接入信道的情况与奖励,利用时间差分(TD)强化学习方法对该时隙对应的状态值向量进行更新,同时为了体现时隙接入信道的一个资格,对其资格迹也进行更新及维护,更新如下:其中,Vt(i)表示t时刻在时隙i处的值函数,et(i)表示t时刻在时隙i处的资格,即其对于产生δ的一个贡献度,α表示学习率。第六步,根据道接入情况,以及各节点的状态值向量,评估该节点是否已经在某个时隙保持稳定状态。第七步,利用评估结果以及状态值向量,通过调整玻尔兹曼策略的温度因子参数τ,充分考虑节点中各时隙的V值分布,获得不同情况下的时隙选择概率,时隙选择概率定义:2.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,所述的网络环境模型建立,具体是,首先根据强化学习中元素定义时隙分配问题,Agent表示具有独立决策能力的传感器节点,环境(Environment)表示传感器节点周围的信道环境,动作(Action)表示节点选择某一时隙进行数据传输,状态(State)有两层含义:一是表示传感器节点的状态,一是表示无线传感器网络的状态,策略(Policy)表示Agent在某一状态下以何种方式选择下一个时隙。利用状态值函数来表示传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报,这样将智能时隙选择问题转化为学习节点最优策略问题,可以定义状态值函数如下:其中,R(s,ai)为状态s下选择时隙i动作的期望回报,P(s,a,s′)表示节点选择时隙i后从状态s转移到状态s′的概率,折扣因子γ∈[0,1]表示当前汇报和长期回报的重要程度。根据V*(s),节点从状态s开始遵循最优策略π*(s)时获得的最大折扣累积回报,从而可以反推出最优策略π*(s),表达式如下所示:在给定R(s,a)和P(s,a,s′)的情况下,最优策略π*(s)就可以确定。3.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,确定目标帧格式以及节点的时隙数量,具体的是,采用S-ALOHA帧结构,其中S-ALOHA将时间分成重复帧,在每一帧中包括固定数量的时隙作为系统宽度参数,节点之间的同步时间被嵌入到协调器发送的ACK包中,这样使得发送节点能够与协调器之间保持同步。所以在目标帧格式中必须有分成固定数量的时隙以及同步信息。需要说明的是,节点的时隙应该被适当设置以便允许每个节点都有机会具有唯一的时隙,在单跳网络中,节点的时隙数量被设置为传感器网络中节点的数量为最优,在多跳网络中,可以根据节点的密度、网络的拓扑结构以及路由节点的数量等相关参数综合分析得出。4.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,每个节点需要维护一个状态值向量,每个时隙绑定一个对应的状态值,初始化起始状态值向量,并且初始化起始时隙选择概率,具体的是,每个节点在帧中的每个时隙都应该有一个独立的值,即状态值函数Vπ(s),是传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报。初始化时分别表示为:其中,Vik表示第i个节点中第k个时隙对应的状态值,表示第i个节点选取第k个时隙在下一阶段进行数据发送的概率,显然,在初始状态下,每个节点的时隙对应的状态值相等,且均为零,同时,其对应的概率也均等,意味着初始阶段随机接入。5.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,所述的依据概率选择时隙接入信道,并且通过信道接入反馈情况更新奖励函数,具体的是,在学习过程中,按照一定的策略(Policy)选择下一个动作,如果传输成功则奖励为正,传输失败则奖励为负(即惩罚),这样具有高状态值的时隙会被优先选择,通过这种学习过程会使得整个网络的所有节点都有其唯一的时隙进行传输,然后根据传输的结果更新奖励函数,定义如下:其中,如果信道接入成功,给予+1的奖励,如果信道接入失败,给予-1的惩罚。6.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,所述的根据节点接入信道情况以及奖励函数对该节点的状态值向量进行更新,对...

【专利技术属性】
技术研发人员:张洪光王怡浩吴帆范文浩刘元安谢刚
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1