当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于深度强化学习的CSMA优化方法技术

技术编号:32331604 阅读:56 留言:0更新日期:2022-02-16 18:39
本发明专利技术公开了一种基于深度强化学习的CSMA优化方法针对当前时隙CSMA协议中二进制指数回退方案的不公平性,以及在网络规模较大时CSMA传输能力急剧下降的问题;本发明专利技术以类似时隙ALOHA的方式将数据划分时隙,单个节点使用深度强化学习的方式决定是否参与本时隙信道竞争,使得网络能够根据实际网络情况智能的进行信道分配,避免了时隙CSMA中发送成功的节点发送概率更高导致的不公平性,同时在网络规模较大时,节点能够智能的降低参与信道竞争的概率,从而避免了大量数据碰撞导致的性能急剧下降。下降。下降。

【技术实现步骤摘要】
一种基于深度强化学习的CSMA优化方法


[0001]本专利技术涉及无线通信
,主要涉及一种基于深度强化学习的CSMA优化方法。

技术介绍

[0002]强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动

评价的环境中获得知识,改进行动方案以适应环境。
[0003]深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。
[0004]载波侦听多址接入协议,全称Carrier Sense Multiple Access(CSMA),是一种允许多个设备在同一信道发送信号的协议,其中的设备监听其它设备是否忙碌,只有在线路空闲时才发送。CSMA/CA(带有冲突避免的载波侦听多路访问)是CSMA在无线网络情况下的一种改进,在无线通信领域得到了广泛应用。
[0005]在CSMA/CD系统中,站点是发生了碰撞之后开始执行退避算法的,而对CSMA/CA系统,当一个站点要发送一个分组时,它首先侦听信道的状态,如果信道空闲,而且经过DIFS后仍然空闲,站点就开始发送信息,如果信道忙,则一直侦听信道的空闲时间超过DIFS。当信道最终空闲下来时,站点使用二进制退避算法(binary back

off algorithm),进入退避状态,以免发生碰撞。因为没有碰撞检测机制,所以站点在信道从忙到空闲时就要执行退避算法。
[0006]在网络规模较大、网络负载较重时,同一时间参与信道竞争的节点数量变多,这将导致大量的数据碰撞,从而导致大量的数据重传,从而传输性能大大降低。此外,CSMA还存在较大的公平性不足的问题,如在CSMA/CA中使用二进制退避算法来避免碰撞,由于上次发送成功的节点将获得更小的退避窗口,因此上次发送成功的节点竞争获得信道的概率更大,这种信道分配方式严重的不公平性。

技术实现思路

[0007]专利技术目的:针对上述
技术介绍
中存在的问题,本专利技术提供了一种基于深度强化学习的CSMA优化方法,以类似时隙ALOHA的方式将数据划分时隙,单个设备分别作为智能体,获取环境信息并以深度强化学习的方式决定是否参与单个发送时隙的信道竞争,使得网络能够根据实际网络情况智能的进行信道分配,在网络中发送负载较大时智能降低自身参与
信道竞争的频率,从而避免了传统CSMA中会发生的大量数据碰撞,提高系统性能和健壮性,同时这也能提高设备间的公平性。
[0008]技术方案:为实现上述目的,本专利技术采用的技术方案为:
[0009]一种基于深度强化学习的CSMA优化方法,包括以下步骤:
[0010]步骤S1、单个节点作为深度强化学习的智能体,完成初始化学习模型参数;获取时隙长度DataSlotTime和周期T;
[0011]步骤S2、当某个节点存在待发送帧信息时,节点通过深度强化学习,选择后n个时隙DataSlotTime所采取的动作,将所述动作表示为长度为n的数组Action,其中Action[i]表示后续的第i个时隙中节点要参与信道的竞争;当节点没有待发送帧信息时,该时隙内节点保持接收信息状态,并记录环境信息,直至有待发送帧出现;
[0012]步骤S3、节点发送帧信息具体步骤包括:
[0013]步骤S3.1、初始化计数器SlotCount=0;
[0014]步骤S3.2、当Action[SlotCount]为真时,代表节点参与此时隙的竞争,则该节点尝试向目的节点发送一个帧;当Action[SlotCount]不为真时,继续等待DataSlotTime时间;当完成发送或等待操作后,计数器加一;
[0015]步骤S3.3、重复步骤S3.2,直至SlotCount=n。
[0016]进一步地,所述步骤S2中,将每个节点分别作为深度强化学习的智能体,分别执行深度强化学习算法,以T=n
×
DataSlotTime为基本运行时间单位;则步骤S2中强化学习算法模型表示如下:
[0017]State
t
=(NN
t
,NI
t
,P
t
,SEND
t
‑1),t=1,2,3,...
[0018]其中State
t
代表状态集合,t代表周期数;NN
t
代表节点的两跳邻居数量;NI
t
表示节点两跳邻居态势信息,在结构上为二维矩阵;P
t
代表发送负载,即等待发送的帧的个数;SEND
t
‑1代表上一周期本节点成功发送数据包的个数;
[0019]每个节点各自维护两跳邻居态势信息,通过一跳邻居节点广播的信标帧更新自身态势表,并向一跳邻居广播自身信息和维护的态势表;其中态势信息包括节点发送负载P
n
、邻居节点数量NN
n
这2个值,则NI
t
表示为一个2
×
NN
t
的矩阵。
[0020]进一步地,所述步骤S2中所述强化学习算法模型中回报函数表示如下:
[0021][0022]其中
[0023][0024]r
i
表示上一动作周期T中第i个时隙奖励值,所述收到正确收到数据帧代表收到任意目的节点的通过CRC校验的帧。
[0025]进一步地,所述步骤S3.2中发送一个帧是指采用CSMA/CA方式发送一个帧;具体步骤包括:
[0026]步骤S3.2.1、节点以二进制指数退避算法进行回退,定义最小退避窗口CW
min
=22=4,最大退避窗口CW
min
=25=32,最大重复次数为4次,即重复超过4次表示回退失败;当回退失败或DataSlotTime时隙剩余时间不足以完成该帧的发送时,则等待时隙结束后执行步骤3.3;
[0027]步骤S3.2.2、当节点竞争信道成功时,发送一个帧信息;所述帧信息包括数据帧和信标帧;数据帧由网络层下发获得,用于完成节点间的数据交互;信标帧由MAC层周期性生成,用于完成节点的信息交互及时间同步;发送的帧信息是数据帧时,使用CSMA/CA方式发送;当发送的帧信息是信标帧时,则使用直接广播的方式发送,发送完成后等待本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的CSMA优化方法,其特征在于,包括以下步骤:步骤S1、单个节点作为深度强化学习的智能体,完成初始化学习模型参数;获取时隙长度DataSlotTime和周期T;步骤S2、当某个节点存在待发送帧信息时,节点通过深度强化学习,选择后n个时隙DataSlotTime所采取的动作,将所述动作表示为长度为n的数组Action,其中Action[i]表示后续的第i个时隙中节点要参与信道的竞争;当节点没有待发送帧信息时,该时隙内节点保持接收信息状态,并记录环境信息,直至有待发送帧出现;步骤S3、节点发送帧信息具体步骤包括:步骤S3.1、初始化计数器SlotCount=0;步骤S3.2、当Action[SlotCount]为真时,代表节点参与此时隙的竞争,则该节点尝试向目的节点发送一个帧;当Action[SlotCount]不为真时,继续等待DataSlotTime时间;当完成发送或等待操作后,计数器加一;步骤S3.3、重复步骤S3.2,直至SlotCount=n。2.根据权利要求1所述的一种基于深度强化学习的CSMA优化方法,其特征在于,所述步骤S2中,将每个节点分别作为深度强化学习的智能体,执行深度强化学习算法,以T=n
×
DataSlotTime为基本运行时间单位;则步骤S2中强化学习算法模型表示如下:State
t
=(NN
t
,NI
t
,P
t
,SEND
t
‑1),t=1,2,3,...其中State
t
代表状态集合,t代表周期数;NN
t
代表节点的两跳邻居数量;NI
t
表示节点两跳邻居态势信息,在结构上为二维矩阵;P
t
代表发送负载,即等待发送的帧...

【专利技术属性】
技术研发人员:王健石广钊张兆伟
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1