【技术实现步骤摘要】
一种基于MAC层公平接入的QL-UACW退避方法
本专利技术涉及一种基于MAC层公平接入的QL-UACW退避方法,属于水下自组织网络MAC层接入
技术介绍
随着水声通信领域的研究发展,水下自组织网络的研究日益深入。目前国内外水下自组织网络的研究主要集中在网络协议、水声通信同步、数据处理以及调制方式等问题。而在网络中,网络协议的重要组成就是节点接入MAC协议,其主要是协调各个节点接入通信共享信道,在解决多个节点发送数据时遇到的数据包冲突问题的同时保证低通信时延、高吞吐量、以及节点间公平性等问题。在针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的问题上,节点的竞争退避机制尤为重要。
技术实现思路
针对多个节点竞争信道如何充分利用该信道资源同时避免冲突发生的问题,本专利技术提供一种基于MAC层公平接入的QL-UACW退避方法,保证节点公平接入信道。一种基于MAC层公平接入的QL-UACW退避方法,应用于水下自组织网络中,将水下自组织网络环境设定为Q-learning学习的环境,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作,其具体步骤如下所示:步骤1:设置状态-动作对映射,针对连 ...
【技术保护点】
1.一种基于MAC层公平接入的QL‑UACW退避方法,应用于水下自组织网络中,其特征在于,将水下自组织网络环境设定为Q‑learning学习的环境,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作,其具体步骤如下所示:步骤1:设置状态‑动作对映射,针对连续竞争窗口状态空间X,设置一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不变,节点每执行一个动作,环境状态就会发生改变;步骤2:状态动作初始化,选择竞争 ...
【技术特征摘要】
1.一种基于MAC层公平接入的QL-UACW退避方法,应用于水下自组织网络中,其特征在于,将水下自组织网络环境设定为Q-learning学习的环境,节点学习整个水下自组织网络环境,根据一个随机策略选择某个动作执行调整增大或减小竞争窗口,获得一个新竞争窗口状态值x,节点根据竞争窗口状态值x进行退避竞争,然后接入水声信道发送数据,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值,利用返回的奖赏值,更新一个竞争窗口状态对应的状态值函数,评估所选动作,不断学习迭代更新,学习经历所有的状态动作对,使得累积奖赏值最大的动作为最优动作,其具体步骤如下所示:步骤1:设置状态-动作对映射,针对连续竞争窗口状态空间X,设置一个竞争窗口连续状态集(CWmin,CWmax),以及包含多个调节幅度动作的竞争窗口调整动作集{累加,倍乘,递减,倍除,保持},其中,累加表示以一定步长增大竞争窗口,倍乘表示以一定倍数增大竞争窗口;倍除表示以倍数减小竞争窗口;递减表示以步长减小竞争窗口,保持表示竞争窗口不变,节点每执行一个动作,环境状态就会发生改变;步骤2:状态动作初始化,选择竞争窗口状态x初始值为CWmin,设置对应状态的状态值函数V(x)初始值为0,其中,状态值函数V(x)表示从竞争窗口连续状态集(CWmin,CWmax)中所取值的竞争窗口状态x出发,节点通过在数据包信息交互环境中不断调整竞争窗口值所学得策略所带来的累积奖赏;步骤3:动作执行,在水下自组织网络环境中节点根据随机策略π’从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择一个对应动作执行,调整竞争窗口状态值,获得新的竞争窗口状态值为CW1,节点根据新的竞争窗口状态值CW1进行退避竞争然后接入信道发送数据,根据发送结果,环境给予节点一个奖赏值,若节点成功发送数据帧,则环境给予节点一个正的奖赏值,若数据发送失败,则给予一个负的奖赏值;步骤4:更新状态值函数V(x),根据奖赏值和对应的调整前后的两个竞争窗口状态值,更新累积奖赏值,使得累积奖赏值最大的动作为最优动作;步骤5:迭代更新动作和状态值函数,最终获得最优策略π,得到最佳竞争窗口。2.根据权利要求1所示的一种基于MAC层公平接入的QL-UACW退避方法,其特征在于,所述步骤(1)中所述的状态-动作对映射表示如下:水下自组织网络中节点在(CWmin,CWmax)区间内能取到的所有竞争窗口集,即学习环境中的状态空间,将状态空间X设置一个连续集合(CWmin,CWmax),其中,最小值CWmin为4,最大值CWmax为1024,根据环境动态变化而选择相应动作执行得到连续函数上最优的映射值;同时针对信道不同的竞争激烈程度,设置执行不同调节幅度的动作,以更适应于此时的信道环境,设置每一个节点可执行的动作,包括累加、倍乘、保持、倍除、递减,针对竞争窗口状态值选择调整动作进行执行。3.根据权利要求2所述的基于MAC层公平接入的QL-UACW退避方法,其特征在于:所述步骤(2)中设置竞争窗口状态x初始值CWmin为4,状态值函数V(x)初始值为0,节点通过在数据包信息交互的环境中不断尝试调整CW值而学得一个策略π,所述策略π即针对竞争窗口CW的最优调整方案;调整过程为在状态x下利用随机策略V(x)从竞争窗口调整动作集{累加,倍乘,递减,倍除,保持}中选择动作a=π’(x),通过选择动作返回的奖赏值,对连续...
【专利技术属性】
技术研发人员:张文波,冯永新,孙敬怡,谭小波,
申请(专利权)人:沈阳理工大学,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。