一种基于深度强化学习的高密集物联网信道接入方法技术

技术编号:37821872 阅读:19 留言:0更新日期:2023-06-09 09:58
本发明专利技术涉及无线通信领域,具体涉及一种基于深度强化学习的高密集物联网信道接入方法,包括当有新节点加入通信网络时,对通信网络进行初始化;每次初始化完成后按照超帧周期进行数据传输,在一个超帧周期中包括数据传输周期和控制周期,在控制周期中节点侦听sink节点广播的接入竞争窗口、最大退避指数进而最大退避次数,在数据传输周期中节点根据上一超帧周期中的控制周期广播的信道接入参数进行信道接入;在数据传输周期结束后,sink节点根据Q

【技术实现步骤摘要】
一种基于深度强化学习的高密集物联网信道接入方法


[0001]本专利技术涉及无线通信领域,具体涉及一种基于深度强化学习的高密集物联网信道接入方法。

技术介绍

[0002]随着无线传感器网络(Wireless Sensors Networks,WSNs)的不断深入研究和发展,它已经深入到了各大物联网领域,是物联网的重要组成部分。这也得益于IEEE 802.15.4协议的完善,该协议是WSNs的一种符合低成本、广部署、低能耗、高可靠的解决方案。在IEEE 802.15.4协议中,基于竞争的带有碰撞避免的载波监听多路访问(CSMA/CA)机制被广泛用来实现信道接入,其执行效率影响整个无线个域网的性能。因此,为了提高网络整体吞吐量,更合理地调整每个节点的信道接入机会,针对信道接入与通信算法的研究是一个热点。
[0003]近年来,信道接入方案涉及到基于竞争的信道接入方案CSMA/CA机制或者基于时隙划分的信道分配方案时隙信道跳频(Time Slotted Channel Hopping,TSCH)技术。TSCH由于分配时隙带来的通信开销并不适用于节点数量过多的网络场景,而CSMA/CA机制在针对像是高密集或者特定场景下的信道接入时应对不够灵活,目前已经有很多基于该机制的改进被提出。随着人工智能的发展,智能算法和传统网络机制相结合已经成为一种可能,本专利技术通过将强化学习与传统CSMA/CA机制相结合,根据网络吞吐量动态地调整CSMA/CA机制的相应参数,从而使CSMA/CA机制能够适应高密集的网络环境,并且实现了低碰撞的信道接入和网络通信,对密集无线网络的部署友好。
[0004]目前,无线传感器网络的信道接入策略主要分为基于竞争的信道接入方案和基于时隙划分的信道分配方案两类,信道接入策略由网络协议栈中的媒体访问控制(Medium Access Control,MAC)层决定,我们主要考虑在IEEE 802.15.4标准中的信道接入策略。当网络节点数量适中时,采用两种信道接入策略都能取得不错的效果,但是如果节点在一定范围内处于高密集的状态时,基于时隙划分的信道分配方式会带来巨大的通信开销,并且维护节点间的控制信息过程也会变得非常繁琐,而传统的基于竞争的信道接入方案虽然不会随着节点数量的增加出现实现困难的情况,但由于没有针对高密集环境的网络状况进行调整,吞吐量等网络性能会大幅下降。

技术实现思路

[0005]由于传统的无线传感器网络信道接入策略的不足,本专利技术提出一种基于深度强化学习的高密集物联网信道接入方法,具体包括以下步骤:
[0006]当有新节点加入通信网络时,对通信网络进行初始化;
[0007]每次初始化完成后按照超帧周期进行数据传输,在一个超帧周期中包括数据传输周期和控制周期,在控制周期中节点侦听sink节点广播的接入竞争窗口、最大退避指数进而最大退避次数,在数据传输周期中节点根据上一超帧周期中的控制周期广播的信道接入
参数进行信道接入;
[0008]在数据传输周期结束后,sink节点根据Q

learning算法选择动作价值最大对应的接入参数作为下一超帧周期的接入参数。
[0009]进一步的,当有新节点加入通信网络时,对通信网络进行初始化的过程包括以下步骤:
[0010]将初始化过程划分为初始周期和初始数据传输周期;
[0011]初始数据传输周期包括多个数据传输时隙,每个数据传输时隙按照固定的竞争窗口、退避指数以及最大退避次数进行数据传输;
[0012]根据每个时隙的数据传输情况计算在初始数据传输周期内的时延、丢包率以及吞吐量的平均值。
[0013]进一步的,在初始数据传输周期每个时隙按照固定的竞争窗口、退避指数以及最大退避次数的值为最后一次强化学习得出的值,若在此之前没有进行过强化学习,则将竞争窗口、退避指数以及最大退避次数的值均设置为2。
[0014]进一步的,计算在一个初始数据传输周期中时延、丢包率以及吞吐量的平均值的过程包括以下步骤:
[0015]delay
平均
(t+1)=k(|delay(t+1)

delay(t)|)+(1

k)delay
平均
(t)
[0016]throughput
平均
(t+1)=k(|throughput(t+1)

throughput(t)|)+(1

k)throughput
平均
(t)
[0017]packetloss
平均
(t+1)=k(|packetloss(t+1)

packetloss(t)|)+(1

k)throughput
平均
(t)
[0018]其中,delay
平均
(t)为第t个数据传输时隙的时延平均值;throughput
平均
(t)为第t个数据传输时隙的吞吐量平均值;packetloss
平均
(t)为第t个数据传输时隙的丢包率平均值;k为权重因子;delay(t)为第t个数据传输时隙的网络延迟;throughput(t)为第t个数据传输时隙的网络的吞吐量;packetloss(t)为当前第t个数据传输时隙的丢包率;||表示取绝对值。
[0019]进一步的,Q

learning算法中动作价值函数表示为:
[0020][0021]其中,q(s
t
,a
t
)表示在状态s
t
下采取动作a
t
的价值;γ为折扣因子,α为学习率;r
t
为奖励值;获取动作值函数最大的下一状态。
[0022]进一步的,奖励值r
t
的获取过程包括:
[0023]当出现当前时隙与前一时隙相比丢包率上升、时延上升和吞吐量下降,则奖励值为

3;
[0024]当出现当前时隙与前一时隙相比丢包率上升、时延上升或者吞吐量下降这三种情况中的其中两个,且当前时隙与前一时隙相比奖励函数值没有上升,则奖励值为

2;
[0025]当出现当前时隙与前一时隙相比丢包率上升、时延上升或者吞吐量下降这三种情况中的其中一个,且当前时隙与前一时隙相比奖励函数值没有上升,则奖励值为

1;
[0026]当出现当前时隙与前一时隙相比丢包率上升、时延上升或者吞吐量下降这三种情况中的其中一个,且当前时隙与前一时隙相比奖励函数值上升,则奖励值为0;
[0027]当出现当前时隙与前一时隙相比丢包率上升、时延上升或者吞吐量下降的其中一个,且奖励函数R

上升,则奖励值为1;
[0028]当当前时隙与前一时隙相比没有出现丢包率上升、时延上升和吞吐量下降,下降,且当前时隙与前一时隙相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的高密集物联网信道接入方法,其特征在于,具体包括以下步骤:当有新节点加入通信网络时,对通信网络进行初始化;每次初始化完成后按照超帧周期进行数据传输,在一个超帧周期中包括数据传输周期和控制周期,在控制周期中节点侦听sink节点广播的接入竞争窗口、最大退避指数进而最大退避次数,在数据传输周期中节点根据上一超帧周期中的控制周期广播的信道接入参数进行信道接入;在数据传输周期结束后,sink节点根据Q

learning算法选择动作价值最大对应的接入参数作为下一超帧周期的接入参数。2.根据权利要求1所述的一种基于深度强化学习的高密集物联网信道接入方法,其特征在于,当有新节点加入通信网络时,对通信网络进行初始化的过程包括以下步骤:将初始化过程划分为初始周期和初始数据传输周期;初始数据传输周期包括多个数据传输时隙,每个数据传输时隙按照固定的竞争窗口、退避指数以及最大退避次数进行数据传输;根据每个时隙的数据传输情况计算在初始数据传输周期内的时延、丢包率以及吞吐量的平均值。3.根据权利要求2所述的一种基于深度强化学习的高密集物联网信道接入方法,其特征在于,在初始数据传输周期每个时隙按照固定的竞争窗口、退避指数以及最大退避次数的值为最后一次强化学习得出的值,若在此之前没有进行过强化学习,则将竞争窗口、退避指数以及最大退避次数的值均设置为2。4.根据权利要求2所述的一种基于深度强化学习的高密集物联网信道接入方法,其特征在于,计算在一个初始数据传输周期中时延、丢包率以及吞吐量的平均值的过程包括以下步骤:delay
平均
(t+1)=k(|delay(t+1)

delay(t))+(1

k)delay
平均
(t)throughput
平均
(t+1)=k(|throughput(t+1)

throughput(t)|)+(1

k)throughput
平均
(t)packetloss
平均
(t+1)=k(|packetloss(t+1)
‑‑
packetloss(t)|)+(1

k)throughput
平均
(t)其中,delay
平均
(t)为第t个数据传输时隙的时延平均值;throughput
平均
(t)为第t个数据传输时隙的吞吐量平均值;packetloss
平均
(t)为第t个数据传输时隙的丢包率平均值;k为权重因子;delay(t)为第t个数据传输时隙的网络延迟;throughput(t)为第t个数据传输时隙的网络的吞吐量;packetloss(t)为当前第t个数据传输时隙的丢包率;||表示取绝对值。5.根据权利要求1所述的一种基于深度强化学习的高密集物联网信道接入方法,其特征在于,Q

learning算法中动作价值函数更新过程表示为:其中,q(s
t
,a

【专利技术属性】
技术研发人员:雷建军谭德望刘捷周盈
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1