基于Q学习的节点数量可变水声网络介质访问控制方法技术

技术编号：30961797 阅读：25 留言：0更新日期：2021-11-25 20:25

基于Q学习的节点数量可变水声网络介质访问控制方法，涉及水声网络。将汇聚节点搜集水声传感器节点所感知数据的传输过程分为若干个时隙，运用Q学习算法，结合汇聚节点的反馈信号、传感器节点数量变化情况，通过合理设置奖励机制，针对Q矩阵的一整行(即子矩阵)进行整体的奖励子矩阵设计，而非逐个元素更新Q矩阵，将时隙合理分配给各传感器节点，使数据在传输过程中不会受到其它传感器节点的影响，避免汇聚节点数据搜集冲突。本发明专利技术所提方法具有学习速度快、吞吐量高、能耗节约、抗干扰能力强的特点，可解决节点死亡或者位置漂移导致的节点减少时的时隙冗余问题或节点增加时的时隙不足问题，确保水声数据传输的成功率和水声网络高吞吐量。吞吐量。

全部详细技术资料下载

【技术实现步骤摘要】
基于Q学习的节点数量可变水声网络介质访问控制方法

[0001]本专利技术涉及水声网络，尤其是涉及一种基于Q学习的节点数量可变水声网络介质访问控制方法。

技术介绍

[0002]近年来，无论是在军事方面还是在民用方面，占据地球表面积71％的海洋日益成为世界关注的焦点。作为海洋物联网的重要组成部分，水声网络也逐渐成为重要的研究热点之一。
[0003]水声网络由大量电池供电的水声传感器节点构成，然而在海洋环境下，节点的电池更换难度大、成本高，且水声信道传播时延长、信道容量小、可靠性低。这要求水声网络进行数据传输必须采用高效节能的协议。水声网络介质访问控制协议是，多个用户/节点共享同一水声信道介质，分配介质使用权的协议，是水声网络进行正常工作的重要协议。
[0004]针对水声网络数据传输能耗高、海洋信道条件不稳定的问题，Ahmed等(Ahmed F,et al.,A Time
‑
Slotted Data Gathering Medium Access Control Protocol Using Q
‑
Learning for Underwater Acoustic Sensor Networks[J].IEEE Access,2021,9(1):48742
‑
48752.)从能耗和复杂度等角度出发，将Q学习算法用于水声网络介质访问控制协议，允许节点智能选择退避槽，并相应调度数据包传输，以避免数据传输冲突。但该协议存在收敛速度慢、抗干扰能力弱、节点数量无法大...

【技术保护点】

【技术特征摘要】
1.基于Q学习的节点数量可变水声网络介质访问控制方法，其特征包括以下步骤：1)参数初始化：考虑一个水声网络，包含M个传感器节点(以下简称“节点”)和1个信宿(以下简称“信宿”)，节点从海洋环境中感知信息，信宿负责搜集节点感知的声学数据；设信宿的数据搜集过程分为N个时隙，为确保每个节点都拥有一个时隙将数据发送给信宿，可令时隙数N与水声网络节点数M相等；设Q学习算法中，应用于介质访问控制的Q矩阵为M
×
N的矩阵，Q矩阵的行m(m＝1,2,
…
,M)表示节点序号，Q矩阵的列n(n＝1,2,
…
,N)表示时隙序号；因此，Q(m,n)表示节点m选择第n个时隙发送数据这一动作所对应的Q值；Q值越大表示节点m选择第n个时隙发送数据的优先度越大；即，节点m会选择Q矩阵第m行中Q值最高的时隙发送数据；若第m行中出现多个相同的最高Q值，则会在第m行最高Q值的多个时隙中随机选择一个时隙发送数据；为降低节点运算复杂度，每个节点内部只需存储表示自己选择发送时隙的那一行子矩阵，即节点m只需存储大小为1
×
N的子矩阵Q
m
，其中Q＝[Q1；Q2；
…
；Q
m
；
…
；Q
M
‑1；Q
M
]；设每个节点的数据帧格式相同、长度相同，时隙的时间长度也相同，且时隙的时间长度等于水声最大传播时延加数据帧长度；初始化迭代次数i＝0，最大迭代次数为K，初始Q值表为M
×
N的零矩阵；2)当数据搜集开始，信宿记录各个时隙的接收情况；若在某个时隙内没有成功接收到完整数据，信宿会记下该时隙为未成功；在传输结束时，信宿会广播一个反馈信号给所有节点；该反馈信号，包含网络内的时隙数N和未成功的时隙信息(包括该时隙内数据冲突、因信道状态差无法成功接收数据、无节点发送数据/时隙空闲状态三种情况)；3)奖励机制设计：当收到信宿的反馈信号之后，节点m会根据发送时自身选择第n个时隙发送数据这一动作，结合反馈信号里的未成功时隙信息，针对Q矩阵的第m行(即节点m内部存储Q矩阵的子矩阵Q
m
)，获得不同的奖励子矩阵R
m
(m,:)；R
m
(m,:)表示节点m选择第n个时隙发送数据这一动作后结合反馈信号而获得的奖励子矩阵；奖励子矩阵R
m
(m,:)的设置如下：
①
若节点m所选择的第n个时隙发送成功，且n≠N(即第n个时隙不是最后一个时隙)，那么奖励子矩阵R
m
(m,:)中的元素R
m
(m,n)为正值+|Ψ|，以确保Q
m
(m,n)值增加；
②
若节点m所选择的第n个时隙发送成功，且n＝N(即第n个时隙是最后一个时隙)，那么奖励子矩阵R
m
(m,:)中的元素R
m
(m,n)为负值
‑
δ
·
|Ψ|，其中δ属于(0,1)，以确保Q
m
(m,n)值缓慢变化，最后略低于零；
③
若节点m所选择的第n个时隙发送失败，那么奖励子矩阵R
m
(m,:)中的元素R
m
(m,n)为0，以确保Q
m
(m,n)值趋于0；
④
若是节点m选择第n个时隙以外的时隙n
其它
发送成功，那么节点m的奖励子矩阵R
m
(m,:)中的元素R
m
(m,n
其它
)为负值
‑
|Ψ|，其中n<...

【专利技术属性】
技术研发人员：陈友淦，黄伟迪，张文翔，万磊，陈柯宇，张小康，许肖梅，
申请(专利权)人：厦门大学深圳研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人