The invention discloses a channel access method and device based on Intelligent slot selection. It mainly solves the problem that the dynamic topology of wireless sensor networks and the efficient utilization of channels can not simultaneously exist. The methods include: model building of wireless sensor network, combining the environment of wireless sensor network with reinforcement learning method, determining the frame structure and the number of time slots, initializing the state value vector V (s) and slot selection probability Pi, selecting slots according to slot selection probability Pi for transmission, and updating the rewards of each slot according to the feedback of channel access. Then, according to the reward of each node, the state value V and qualification trace delta of the corresponding slot are updated. After the update, the state of each node is evaluated. When Vi > Vth, the node is considered to be in a stable state in the first slot. Finally, according to the above state evaluation results and the state value, the temperature factor parameters of Boltzmann strategy are adjusted to select the optimal time of the node. Gaps are sent. The embodiment of the present invention not only ensures the channel utilization rate of wireless sensor networks, but also improves the reliability of wireless sensor networks, and has wide application value.
【技术实现步骤摘要】
一种基于智能时隙选择的信道接入方法
本专利技术属于无线传感器网络
,特别涉及一种基于智能时隙选择的信道接入方法。
技术介绍
近年来,无线传感器网络成为当前信息领域中研究的热点之一,可用于特殊环境实现信号的采集、处理和发送。无线传感器网络作为一种全新的信息获取和处理技术,由于其规模小、能耗低等特点,在现实生活中得到了越来越广泛的应用。目前,无线传感器网络中MAC(MediumAccessControl,介质访问控制)层协议采用的信道接入方式主要有两种:一是CSMA/CA(CarrierSenseMultipleAccesswithCollisionAvoidance,载波侦听多路访问/冲突避免)机制,一种是TDMA(TimeDivisionMultipleAccess,时分多址)机制。CSMA/CA机制主要应用于节点随机接入的场景中,各节点通过竞争的方式接入信道,通过随机退避以及确认重传等机制保证网络的服务质量,因此网络的自适应能力强;但在高流量下信道利用率低,只适用于数据量少的无线传感器网络。TDMA机制通过信标帧同步分配时隙的方式接入信道,在信标帧中包含超帧信息和每个传感器节点的时隙信息。主要应用于有控制节点对其他节点进行调度的场景,这种机制对时间同步要求严格,故在节点之间需要大量的交互信息,由于信标帧中包括的超帧信息和时隙信息是固定不变的,因此对突发时间没有处理能力,动态拓扑性差。随着人工智能技术的不断发展,将其应用于无线传感器网络以提高网络性能得到了越来越多的兴趣,目前人工智能的一个分支强化学习RL(ReinforcementLearning) ...
【技术保护点】
1.一种基于智能时隙选择的信道接入方法,其特征在于,其步骤包括:第一步,根据无线传感器网络环境进行模型建立,将强化学习应用到无线传感器网络的环境之中。将无线传感器节点抽象成具有一定决策能力的Agent,使时间差分(TD)强化学习与信道接入相结合,并对时间差分(TD)强化学习的奖惩函数进行改进;第二步,根据节点数量确定目标帧格式,确定帧结构的同步信息与时隙数量,以范围内节点的数量确定帧格式中时隙的数量,并将用于节点之间同步的信息嵌入ACK确认帧中;第三步,每个节点维护一个状态值向量,为每个时隙绑定一个对应的状态值,初始化节点的状态值向量,使节点从零开始学习,并且初始化起始时隙选择概率,使得节点在起始阶段随机接入;第四步,每个节点依据概率随机接入信道,通过信道接入反馈情况更新奖励,当节点接入成功之后,反馈一个正的奖励,若节点接入失败,则会收到一个负的惩罚;第五步,根据第四步接入信道的情况与奖励,利用时间差分(TD)强化学习方法对该时隙对应的状态值向量进行更新,同时为了体现时隙接入信道的一个资格,对其资格迹也进行更新及维护,更新如下:
【技术特征摘要】
1.一种基于智能时隙选择的信道接入方法,其特征在于,其步骤包括:第一步,根据无线传感器网络环境进行模型建立,将强化学习应用到无线传感器网络的环境之中。将无线传感器节点抽象成具有一定决策能力的Agent,使时间差分(TD)强化学习与信道接入相结合,并对时间差分(TD)强化学习的奖惩函数进行改进;第二步,根据节点数量确定目标帧格式,确定帧结构的同步信息与时隙数量,以范围内节点的数量确定帧格式中时隙的数量,并将用于节点之间同步的信息嵌入ACK确认帧中;第三步,每个节点维护一个状态值向量,为每个时隙绑定一个对应的状态值,初始化节点的状态值向量,使节点从零开始学习,并且初始化起始时隙选择概率,使得节点在起始阶段随机接入;第四步,每个节点依据概率随机接入信道,通过信道接入反馈情况更新奖励,当节点接入成功之后,反馈一个正的奖励,若节点接入失败,则会收到一个负的惩罚;第五步,根据第四步接入信道的情况与奖励,利用时间差分(TD)强化学习方法对该时隙对应的状态值向量进行更新,同时为了体现时隙接入信道的一个资格,对其资格迹也进行更新及维护,更新如下:其中,Vt(i)表示t时刻在时隙i处的值函数,et(i)表示t时刻在时隙i处的资格,即其对于产生δ的一个贡献度,α表示学习率。第六步,根据道接入情况,以及各节点的状态值向量,评估该节点是否已经在某个时隙保持稳定状态。第七步,利用评估结果以及状态值向量,通过调整玻尔兹曼策略的温度因子参数τ,充分考虑节点中各时隙的V值分布,获得不同情况下的时隙选择概率,时隙选择概率定义:2.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,所述的网络环境模型建立,具体是,首先根据强化学习中元素定义时隙分配问题,Agent表示具有独立决策能力的传感器节点,环境(Environment)表示传感器节点周围的信道环境,动作(Action)表示节点选择某一时隙进行数据传输,状态(State)有两层含义:一是表示传感器节点的状态,一是表示无线传感器网络的状态,策略(Policy)表示Agent在某一状态下以何种方式选择下一个时隙。利用状态值函数来表示传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报,这样将智能时隙选择问题转化为学习节点最优策略问题,可以定义状态值函数如下:其中,R(s,ai)为状态s下选择时隙i动作的期望回报,P(s,a,s′)表示节点选择时隙i后从状态s转移到状态s′的概率,折扣因子γ∈[0,1]表示当前汇报和长期回报的重要程度。根据V*(s),节点从状态s开始遵循最优策略π*(s)时获得的最大折扣累积回报,从而可以反推出最优策略π*(s),表达式如下所示:在给定R(s,a)和P(s,a,s′)的情况下,最优策略π*(s)就可以确定。3.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,确定目标帧格式以及节点的时隙数量,具体的是,采用S-ALOHA帧结构,其中S-ALOHA将时间分成重复帧,在每一帧中包括固定数量的时隙作为系统宽度参数,节点之间的同步时间被嵌入到协调器发送的ACK包中,这样使得发送节点能够与协调器之间保持同步。所以在目标帧格式中必须有分成固定数量的时隙以及同步信息。需要说明的是,节点的时隙应该被适当设置以便允许每个节点都有机会具有唯一的时隙,在单跳网络中,节点的时隙数量被设置为传感器网络中节点的数量为最优,在多跳网络中,可以根据节点的密度、网络的拓扑结构以及路由节点的数量等相关参数综合分析得出。4.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,每个节点需要维护一个状态值向量,每个时隙绑定一个对应的状态值,初始化起始状态值向量,并且初始化起始时隙选择概率,具体的是,每个节点在帧中的每个时隙都应该有一个独立的值,即状态值函数Vπ(s),是传感器节点与WSN信道环境不断试错学习的一个长期化的折扣累积回报。初始化时分别表示为:其中,Vik表示第i个节点中第k个时隙对应的状态值,表示第i个节点选取第k个时隙在下一阶段进行数据发送的概率,显然,在初始状态下,每个节点的时隙对应的状态值相等,且均为零,同时,其对应的概率也均等,意味着初始阶段随机接入。5.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,所述的依据概率选择时隙接入信道,并且通过信道接入反馈情况更新奖励函数,具体的是,在学习过程中,按照一定的策略(Policy)选择下一个动作,如果传输成功则奖励为正,传输失败则奖励为负(即惩罚),这样具有高状态值的时隙会被优先选择,通过这种学习过程会使得整个网络的所有节点都有其唯一的时隙进行传输,然后根据传输的结果更新奖励函数,定义如下:其中,如果信道接入成功,给予+1的奖励,如果信道接入失败,给予-1的惩罚。6.根据权利要求1所述的基于智能时隙选择的信道接入方法,其特征在于,所述的根据节点接入信道情况以及奖励函数对该节点的状态值向量进行更新,对...
【专利技术属性】
技术研发人员:张洪光,王怡浩,吴帆,范文浩,刘元安,谢刚,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。