一种基于MAC层公平接入的QL-UACW退避方法技术

技术编号:22310672 阅读:29 留言:0更新日期:2019-10-16 10:32
本发明专利技术公开了一种基于MAC层公平接入的QL‑UACW退避方法,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值,节点根据竞争窗口值进行退避竞争,然后接入水声信道发送数据,并利用返回的奖赏值,更新一个竞争窗口状态对应的累积奖赏值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作。本发明专利技术使得用户能够使水下自组织网络在节点竞争接入信道时提高节点间公平性,降低数据包冲突的同时提高信道利用率和网络吞吐量,从而使得大量水下自组织网络节点发送数据更加公平。

A backoff method of ql-uacw based on fair access of MAC layer

【技术实现步骤摘要】
一种基于MAC层公平接入的QL-UACW退避方法
本专利技术涉及一种基于MAC层公平接入的QL-UACW退避方法,属于水下自组织网络MAC层接入

技术介绍
随着水声通信领域的研究发展,水下自组织网络的研究日益深入。目前国内外水下自组织网络的研究主要集中在网络协议、水声通信同步、数据处理以及调制方式等问题。而在网络中,网络协议的重要组成就是节点接入MAC协议,其主要是协调各个节点接入通信共享信道,在解决多个节点发送数据时遇到的数据包冲突问题的同时保证低通信时延、高吞吐量、以及节点间公平性等问题。在针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的问题上,节点的竞争退避机制尤为重要。
技术实现思路
针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的问题,本专利技术提供一种基于MAC层公平接入的QL-UACW退避方法,保证节点公平接入信道。一种基于MAC层公平接入的QL-UACW退避方法,应用于水下自组织网络中,将水下自组织网络环境设定为Q-learning学习的环境,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作,其具体步骤如下所示:步骤1:设置状态-动作对映射,针对连续竞争窗口状态空间X,设置一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不变,节点每执行一个动作,环境状态就会发生改变;步骤2:状态动作初始化,选择竞争窗口状态x初始值为CWmin,设置对应状态的状态值函数V(x)初始值为0,其中,状态值函数V(x)表示从竞争窗口连续状态集(CWmin,CWmax)中所取值的竞争窗口状态x出发,节点通过在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖赏;步骤3:动作执行,在水下自组织网络环境中节点根据随机策略π’从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择一个对应动作执行,调整竞争窗口状态值,获得新的竞争窗口状态值为CW1,节点根据新的竞争窗口状态值CW1进行退避竞争然后接入信道发送数据,根据发送结果,环境给予节点一个奖赏值,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值;步骤4:更新状态值函数V(x),根据奖赏值和对应的调整前后的两个竞争窗口状态值,更新累积奖赏值,使得累积奖赏值最大的动作为最优动作;步骤5:迭代更新动作和状态值函数,最终获得最优策略π,得到最佳竞争窗口。优选地,所述步骤(1)中所述的状态-动作对映射表示如下:水下自组织网络中节点在(CWmin,CWmax)区间内能取到的所有竞争窗口集,即学习环境中的状态空间,将状态空间X设置一个连续集合(CWmin,CWmax),其中,最小值CWmin为4,最大值CWmax为1024,根据环境动态变化而选择相应动作执行得到连续函数上最优的映射值;同时针对信道不同的竞争激烈程度,设置执行不同调节幅度的动作,以更适应于此时的信道环境,设置每一个节点可执行的动作,包括累加、倍乘、保持、倍除、递减,针对竞争窗口状态值选择调整动作进行执行。优选地,所述步骤(2)中设置竞争窗口状态x初始值CWmin为4,状态值函数V(x)初始值为0,节点通过在数据包信息交互的环境中不断尝试调整CW值而学得一个策略π,所述策略π即针对竞争窗口CW的最优调整方案;调整过程为在状态x下利用随机策略π’从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择动作a=π’(x),通过选择动作返回的奖赏值,对连续状态空间的状态值函数V(x)进行更新,来评估奖赏值和所选动作,最终学得最优调整策略π。优选地,所述步骤4中状态值函数的具体更新步骤如下:步骤4-1:定义估计值函数Vθ(x),如式(1)所示:Vθ(x)=θTx(1);其中,x为状态向量,θ为参数向量;步骤4-2:计算估计值函数和真实值函数的误差最终学习获得的估计值函数要无限接近真实的值函数Vπ,近似程度用最小二乘误差来度量,误差函数如公式(2)所示:Eθ=Ex~π[(Vπ(x)-Vθ(x))2](2);其中,Ex~π表示由策略π所采样而得的状态上的误差期望;通过梯度下降方法对误差期望进行优化,对误差函数求负导数,如式(3)所示:获得对单个样本的更新规则,如式(4)所示:θ=θ+α(Vπ(x)-Vθ(x))x(4);策略的真实值函数不可知,根据时序差分学习,基于Vπ(x)=r+γVπ(x′)用当前的估计值函数代替真实值函数,如公式(5)所示:Vπ(x)=r+γVθ(x')=r+γθTx'(5);其中,r为x对应的奖赏值,γ为折扣因子,x′为下一状态;步骤4-3:更新迭代获得最优参数值θ水下自组织网络环境中,节点采用QL-UACW算法发送MAC数据帧的过程中,通过对线性近似对象为状态值函数的参数向量θ进行更新迭代,并利用奖赏作为估计函数选择最优策略,节点每发送一次数据帧,参数向量θ更新一次,通过多次迭代学习得到最优参数向量,进而逼近最优值函数,更新参数向量θ的表达式,时序差分学习需要状态-动作值函数以便获得策略,令θ作用于表示状态和动作的联合向量上,将式(1)中的x替换为(x;a),如式(6)所示:θ←θ+α(r+γθT(x′;a′)-θT(x;a))(x;a)(6);其中,α为学习率,是节点在环境中的学习步长,γ为折扣因子,表示执行一个动作后环境给予的奖赏值,且γ∈[0,1)。优选地,所述步骤5获得最优策略的具体步骤如下:步骤5-1:水下节点在自组织网络中初次接入信道发送数据时,首先初始化估计值函数Vθ(x)的值;步骤5-2:根据随机策略π‘在状态x下选择动作a,得到下一状态x′及其奖赏值r;步骤5-3:根据步骤4中得到的更新参数值θ的表达式(6)更新估计值函数参数向量θ,循环执行步骤5-2以及5-3,直到达到最优参数值或达到迭代次数上限,进而得到最优估计值函数,从而获得最优策略,所述最优策略表达式如式(7)所示:优选地,步骤5-2中所述的奖赏值r的计算公式如(8)所示:其中,rcw表示,选择当前的CW值接入信道,数据发送成功,获得的正奖赏值;如果水下节点数据发送失败,则从网络环境中获得的奖赏值为-1;若当前节点正在发送数据,则返回获得的奖赏值为0;对于奖赏值rcw的设置,成功发送数据所选的CW值越小,得到的奖赏值就越大;定义竞争窗口状态x与奖赏值rcw的对应关系为指数关系,如式(9)所示:rcw=a*exp(b*x)(9);其中,a和b为指数关系的参数,x为竞争窗口状态值,rcw为数据发送成功对应的奖赏值。优选地,所述步骤4-3中,学习率α取值为0本文档来自技高网...

【技术保护点】
1.一种基于MAC层公平接入的QL‑UACW退避方法,应用于水下自组织网络中,其特征在于,将水下自组织网络环境设定为Q‑learning学习的环境,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作,其具体步骤如下所示:步骤1:设置状态‑动作对映射,针对连续竞争窗口状态空间X,设置一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不变,节点每执行一个动作,环境状态就会发生改变;步骤2:状态动作初始化,选择竞争窗口状态x初始值为CWmin,设置对应状态的状态值函数V(x)初始值为0,其中,状态值函数V(x)表示从竞争窗口连续状态集(CWmin,CWmax)中所取值的竞争窗口状态x出发,节点通过在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖赏;步骤3:动作执行,在水下自组织网络环境中节点根据随机策略π’从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择一个对应动作执行,调整竞争窗口状态值,获得新的竞争窗口状态值为CW1,节点根据新的竞争窗口状态值CW1进行退避竞争然后接入信道发送数据,根据发送结果,环境给予节点一个奖赏值,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值;步骤4:更新状态值函数V(x),根据奖赏值和对应的调整前后的两个竞争窗口状态值,更新累积奖赏值,使得累积奖赏值最大的动作为最优动作;步骤5:迭代更新动作和状态值函数,最终获得最优策略π,得到最佳竞争窗口。...

【技术特征摘要】
1.一种基于MAC层公平接入的QL-UACW退避方法,应用于水下自组织网络中,其特征在于,将水下自组织网络环境设定为Q-learning学习的环境,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作,其具体步骤如下所示:步骤1:设置状态-动作对映射,针对连续竞争窗口状态空间X,设置一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不变,节点每执行一个动作,环境状态就会发生改变;步骤2:状态动作初始化,选择竞争窗口状态x初始值为CWmin,设置对应状态的状态值函数V(x)初始值为0,其中,状态值函数V(x)表示从竞争窗口连续状态集(CWmin,CWmax)中所取值的竞争窗口状态x出发,节点通过在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖赏;步骤3:动作执行,在水下自组织网络环境中节点根据随机策略π’从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择一个对应动作执行,调整竞争窗口状态值,获得新的竞争窗口状态值为CW1,节点根据新的竞争窗口状态值CW1进行退避竞争然后接入信道发送数据,根据发送结果,环境给予节点一个奖赏值,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值;步骤4:更新状态值函数V(x),根据奖赏值和对应的调整前后的两个竞争窗口状态值,更新累积奖赏值,使得累积奖赏值最大的动作为最优动作;步骤5:迭代更新动作和状态值函数,最终获得最优策略π,得到最佳竞争窗口。2.根据权利要求1所示的一种基于MAC层公平接入的QL-UACW退避方法,其特征在于,所述步骤(1)中所述的状态-动作对映射表示如下:水下自组织网络中节点在(CWmin,CWmax)区间内能取到的所有竞争窗口集,即学习环境中的状态空间,将状态空间X设置一个连续集合(CWmin,CWmax),其中,最小值CWmin为4,最大值CWmax为1024,根据环境动态变化而选择相应动作执行得到连续函数上最优的映射值;同时针对信道不同的竞争激烈程度,设置执行不同调节幅度的动作,以更适应于此时的信道环境,设置每一个节点可执行的动作,包括累加、倍乘、保持、倍除、递减,针对竞争窗口状态值选择调整动作进行执行。3.根据权利要求2所述的基于MAC层公平接入的QL-UACW退避方法,其特征在于:所述步骤(2)中设置竞争窗口状态x初始值CWmin为4,状态值函数V(x)初始值为0,节点通过在数据包信息交互的环境中不断尝试调整CW值而学得一个策略π,所述策略π即针对竞争窗口CW的最优调整方案;调整过程为在状态x下利用随机策略V(x)从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择动作a=π’(x),通过选择动作返回的奖赏值,对连续...

【专利技术属性】
技术研发人员:张文波冯永新孙敬怡谭小波
申请(专利权)人:沈阳理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1