一种基于强化学习的动态概率退避水声媒介接入控制方法技术

技术编号：24104606 阅读：54 留言：0更新日期：2020-05-09 15:35

本发明专利技术属于水声通信技术领域，涉及一种基于强化学习的动态概率退避水声媒介接入控制方法，包括：S1、待发送的节点检测当前信道是否空闲、若空闲，则进入发送决策阶段；否则进入退避状态，退避计时结束后，重新检测信道是否空闲；S2、节点进入发送决策阶段后，若发送策略的期望收益大于等于退避策略的期望收益，则发送数据包，进入消息确认阶段；否则节点进入退避状态，退避计时结束后，回到步骤S1；S3、若节点进入消息确认阶段后，在规定的时间内接收到消息确认包，则认为发送成功，更新碰撞概率的估计值，回到步骤S1，准备发送下一个数据包；否则认为发送失败，更新碰撞概率的估计值，回到步骤S1。本发明专利技术有效提高了网络的信道利用率和传输效率。

A dynamic probability backoff access control method for underwater acoustic media based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的动态概率退避水声媒介接入控制方法
本专利技术涉及水声通信
，具体涉及一种基于强化学习的动态概率退避水声媒介接入控制方法。
技术介绍
静态水声网络一般由水下固定节点和水上漂浮节点组成，与传统的陆上无线网络不同的是，考虑到海水是无线电的不良导体，无线电传播在水下衰减严重，传输距离短，而光波通信更是因为水体浑浊，光线容易散射的缘故，都不适合作为水下网络传播的介质。由于声波是唯一一种能在水介质中进行长距离传输的能量形式，水声通信网络通常采用声波信道来进行通信。相比陆上来说，水下环境的复杂多变和利用声波进行通信的特点，给媒介接入控制协议的设计带来了巨大的挑战，主要包括有多变的长传播时延、有限的带宽、较低的数据速率、复杂多变的环境噪声、能量受限和高误比特率等。因此，在水声网络中，媒介接入控制协议的设计对整个网络性能起到至关重要的作用。现有的大部分水声媒介接入控制协议主要分为基于调度机制的和基于退避机制两种类型。基于调度机制的又分为基于划分的协议和基于握手的协议，其中：基于划分的协议主要有FDMA、TDMA...

【技术保护点】
1.一种基于强化学习的动态概率退避水声媒介接入控制方法，其特征在于，用于水声网络中竞争共享信道的接入，基于强化学习模型实现，其中：学习者对应水声网络中的所有节点，环境对应整个水声网络，动作对应节点所选择的数据发送策略，状态对应水声网络中共享信道是否被占用的情况，奖赏对应目的节点的消息确认包，节点的发送策略根据网络信道质量的状态自动地调整，具体包括：/nS1、待发送的节点检测当前信道是否空闲、若信道空闲，则进入发送决策阶段；若信道忙碌，则进入退避状态，退避计时结束后，重新检测信道是否空闲；/nS2、节点进入发送决策阶段后，分别计算数据包发送策略和退避策略的期望收益，若发送策略的期望收益大于等于退...

【技术特征摘要】
1.一种基于强化学习的动态概率退避水声媒介接入控制方法，其特征在于，用于水声网络中竞争共享信道的接入，基于强化学习模型实现，其中：学习者对应水声网络中的所有节点，环境对应整个水声网络，动作对应节点所选择的数据发送策略，状态对应水声网络中共享信道是否被占用的情况，奖赏对应目的节点的消息确认包，节点的发送策略根据网络信道质量的状态自动地调整，具体包括：
S1、待发送的节点检测当前信道是否空闲、若信道空闲，则进入发送决策阶段；若信道忙碌，则进入退避状态，退避计时结束后，重新检测信道是否空闲；
S2、节点进入发送决策阶段后，分别计算数据包发送策略和退避策略的期望收益，若发送策略的期望收益大于等于退避策略的期望收益，则选择发送数据包，进入消息确认阶段；若发送策略的期望收益小于退避策略的期望收益，则节点进入退避状态，退避计时结束后，回到步骤S1，重新检测信道是否空闲；
S3、若节点进入消息确认阶段后，在规定的时间内接收到消息确认包，则认为发送成功，更新碰撞概率的估计值，回到步骤S1，准备发送下一个数据包；若在规定的时间内接收不到消息确认包，则认为发送失败，更新碰撞概率的估计值，回到步骤S1，准备重发该数据包。

2.根据权利要求1所述的动态概率退避水声媒介接入控制方法，其特征在于，发送策略和退避策略的期望收益的计算方法如下：
表1

无碰撞/1-P(n)
碰撞/P(n)

发送
a
-b

退避
-c

【专利技术属性】
技术研发人员：季飞，王潮雄，官权升，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人