System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种物联网中基于深度强化学习的信道接入方法技术_技高网

一种物联网中基于深度强化学习的信道接入方法技术

技术编号:41236550 阅读:5 留言:0更新日期:2024-05-09 23:50
本发明专利技术属于通信技术领域,特别涉及一种物联网中基于深度强化学习的信道接入方法,包括节点进行初始化,初始化包括仲裁时隙的触发帧以通知节点竞争TXOP;在接收到触发帧后,节点开始退避,获得信道接入机会的节点进入仲裁竞争阶段时在信道中随机选择资源单元;节点从仲裁空间中选择一个仲裁号;若选择当前资源单元的节点中若存在一个仲裁号最大的节点,则仲裁号最大的节点完成信道接入后进行数据传输;若存在多个仲裁号最大的节点,则进行下一轮退避;本发明专利技术可以有效缓解在密集网络场景下因为随机选择仲裁号进行信道接入而导致的高冲突率。

【技术实现步骤摘要】

本专利技术属于通信,特别涉及一种物联网中基于深度强化学习的信道接入方法


技术介绍

1、在物联网中介质访问控制的主要任务是确保设备之间的通信互不干扰,合理分配信道资源,提高信道的利用率。物联网中常见的介质访问控制方法包括信道信道划分介质访问控制、随机访问介质访问控制和轮询访问介质访问控制。其中,信道划分是通过分时、分频、分码等方法将原来的一条广播信道逻辑上分为几条用于两个节点之间的互不干扰的子信道;随机访问则允许节点随机地发送数据,但需要解决可能出现的碰撞问题;轮询访问则是按照一定的顺序逐个访问节点,每个节点在一定的时间内获得发送数据的机会。

2、由于无线和低成本设备的轻松集成,物联网在各种民用和工业领域的普及,导致了设备的密集部署产生的信道冲突严重等问题。在ieee802.11ax中提出了密集网络场景下ul多用户传输技术,只有需要ul传输机会(txop)的节点才能使用随机接入(uora)规则竞争资源单元(ru),更适用于密集的网络场景。802.11ax为无线网络提供了更高的带宽效率、更高的容量、更低的延迟、更好的兼容性和更强的安全性。这些特性使得ieee802.11ax协议同样适用于物联网环境。然而,在该协议下各节点基于二进制指数退避规则获得在单个ru上进行的ul传输的txop。由于各节点不知道其它传输节点所选择的ru,因此信道碰撞不可避免。

3、在现有的物联无线分散网络中的介质访问控制(mac)协议大都采用无争用的mac协议,但这往往导致低效率和高时间成本且难以适用于所有网络场景。

4、虽然mbta机制的引入极大地提高了uora的效率和网络吞吐量,但仲裁号的选择缺乏灵活性。且信道接入算法大多基于固定的接入规则,在未来物联网环境中,由于网络环境的不可预测性,无法根据网络的实时状态和实际场景的需求,灵活地做出智能接入决策。

5、目前,drl已经成为机器学习和传统决策的一种很有前途的替代方法,它可以通过智能体和现实世界环境之间的交互来学习最优控制。然而,现有的基于drl来改进物联网络信道接入的方法基本都是通过优化cw来缓解网络冲突。目前,还没有学者基于mbta来对节点的仲裁空间进行优化设计。


技术实现思路

1、为了降低随机选择仲裁号进行信道接入导致的高冲突率、提高系统吞吐量,本专利技术提出一种物联网中基于深度强化学习的信道接入方法,需要进行数据传输的节点进行信道接入,如图5,具体包括以下步骤:

2、节点进行初始化,初始化包括仲裁时隙的触发帧以通知节点竞争txop;

3、在接收到触发帧后,节点开始退避,获得信道接入机会的节点进入仲裁竞争阶段时在信道中随机选择资源单元;

4、节点从仲裁空间中选择一个仲裁号;

5、若选择当前资源单元的节点中若存在一个仲裁号最大的节点,则仲裁号最大的节点完成信道接入后进行数据传输;

6、若存在多个仲裁号最大的节点,则进行下一轮退避。

7、进一步的,节点从仲裁空间中选择一个仲裁号时,将节点视为一个智能体,并将节点选择仲裁号的过程描述为一个马尔可夫决策过程,并结合深度强化学习选择最优动作。

8、进一步的,将节点选择仲裁号的过程描述为一个马尔可夫决策过程,利用四元组描述马尔科夫决策过程,表示为(s,a,p,r),其中:

9、s为状态空间,st∈s,属于,t时刻的状态st表示为{nru,nru,nas,nc},nru表示的是单个信道中可用的资源单元数,nru表示网络场景中上行链路接入阶段竞争节点的个数,nas为本次竞争过程中分配到的仲裁空间大小,nc表示本次竞争过程超帧结束之后的冲突率大小;

10、a为动作空间,at∈a,t时刻选择的动作为at,at∈[1,7]且at∈z+,即t时刻的仲裁空间大小为at;z+为正整数集合;

11、p表示转移概率空间,pt→t+1∈p,pt→t+1表示从t时刻状态st转移到t+1时刻状态st+1的概率;

12、r为奖励空间,rt∈r,rt表示t时刻执行动作at的奖励。

13、进一步的,t时刻执行动作at的奖励rt表示为:

14、

15、其中,ct为系统信道冲突率,ut为系统信道利用率,dt为系统吞吐量;w1,w2和w3为权重系数。

16、进一步的,系统信道冲突率表示为:

17、

18、系统信道利用率表示为:

19、

20、系统吞吐量表示为:

21、

22、其中,为节点在一个超帧周期t内数据包冲突的次数,为节点在一个超帧周期t内成功发送的数据包数;ta,t为节点在一个超帧周期t内竞争周期竞争信号的传输时间,td,t为节点在一个超帧周期t内的传输时间,nru为系统可用的资源单元数,tdf为一个超帧周期的持续时间;sn为当前超帧周期竞争到资源单位的站点个数;nb为在当前超帧周期内发送数据包的总个数;tpl为数据传输阶段数据载荷的传输时间;τ表示在传统的uora过程中节点的传输概率;nsta为系统中节点的数量;p{nwin=1}表示ru成功地支持了一个传输的概率。

23、进一步的,一个超帧结构包括仲裁竞争过程和数据传输过程,汇聚节点初始化包括仲裁时隙的触发帧,其他节点收到触发帧后开始进行退避,获得信道接入机会的节点进入仲裁竞争过程,在信道中随机选择一个资源单元并选择一个仲裁号,基于仲裁号对选择的资源单元进行竞争,如果竞争成功,则进入数据传输过程,在数据传输过程中进行数据传输。

24、进一步的,智能体包括训练神经网络和目标神经网络,智能体进行深度强化学习训练的过程包括:

25、在预训练阶段,从数据缓冲区随机选择数据用于训练智能体,利用目标神经网络计算训练的损失函数,并利用梯度下降法更新训练神经网络的参数;

26、每个训练周期结束后,利用训练神经网络的参数更新目标神经网络的参数;

27、在策略学习阶段,智能体获取当前状态,基于ε-greedy算法选择仲裁号,即以1-ε的概率随机选择动作,以ε的概率选择令训练神经网络值函数最大的动作;

28、t时刻智能体执行选择的动作at,获取对应的奖励rt,并从t时刻的状态st转移到t+1时刻的状态st+1,智能体将该过程中获得的经验(st,at,rt,st+1)放入输入缓冲区;

29、重复以上预训练阶段和策略学习阶段,直到训练结束。

30、进一步的,选择令训练神经网络值函数最大的动作包括:

31、at=argmaxaq(st,at;θ)

32、其中,st表示在t时刻的状态,at表示在状态st下选择的动作,θ表示当前用于选择动作的神经网络的参数,q(st,at;θ)表示神经网络在状态st采取动作at的q值。

33、进一步的,利用目标神经网络计算训练的损失函数,损失函数表示为:

34、l=qtarget-q(st,本文档来自技高网...

【技术保护点】

1.一种物联网中基于深度强化学习的信道接入方法,其特征在于,需要进行数据传输的节点进行信道接入具体包括以下步骤:

2.根据权利要求1所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,节点从仲裁空间中选择一个仲裁号时,将节点视为一个智能体,并将节点选择仲裁号的过程描述为一个马尔可夫决策过程,并结合深度强化学习选择最优动作。

3.根据权利要求2所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,将节点选择仲裁号的过程描述为一个马尔可夫决策过程,利用四元组描述马尔科夫决策过程,表示为(S,A,P,R),其中:

4.根据权利要求3所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,t时刻执行动作at的奖励rt表示为:

5.根据权利要求4所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,系统信道冲突率表示为:

6.根据权利要求5所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,一个超帧结构包括仲裁竞争过程和数据传输过程,汇聚节点初始化包括仲裁时隙的触发帧,其他节点收到触发帧后开始进行退避,获得信道接入机会的节点进入仲裁竞争过程,在信道中随机选择一个资源单元并选择一个仲裁号,基于仲裁号对选择的资源单元进行竞争,如果竞争成功,则进入数据传输过程,在数据传输过程中进行数据传输。

7.根据权利要求3所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,智能体包括训练神经网络和目标神经网络,智能体进行深度强化学习训练的过程包括:

8.根据权利要求7所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,选择令训练神经网络值函数最大的动作包括:

9.根据权利要求8所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,利用目标神经网络计算训练的损失函数,损失函数表示为:

10.根据权利要求1所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,节点开始退避时,退避窗口的大小设置包括:

...

【技术特征摘要】

1.一种物联网中基于深度强化学习的信道接入方法,其特征在于,需要进行数据传输的节点进行信道接入具体包括以下步骤:

2.根据权利要求1所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,节点从仲裁空间中选择一个仲裁号时,将节点视为一个智能体,并将节点选择仲裁号的过程描述为一个马尔可夫决策过程,并结合深度强化学习选择最优动作。

3.根据权利要求2所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,将节点选择仲裁号的过程描述为一个马尔可夫决策过程,利用四元组描述马尔科夫决策过程,表示为(s,a,p,r),其中:

4.根据权利要求3所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,t时刻执行动作at的奖励rt表示为:

5.根据权利要求4所述的一种物联网中基于深度强化学习的信道接入方法,其特征在于,系统信道冲突率表示为:

6.根据权利要求5所述的一种物联网中基于深度强化学习的信道接入方法,其特征在...

【专利技术属性】
技术研发人员:雷建军马小涵
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1