一种基于深度强化学习算法的增强型ALOHA接入方法技术

技术编号:34995406 阅读:19 留言:0更新日期:2022-09-21 14:43
本发明专利技术公开的一种基于深度强化学习算法的增强型ALOHA接入方法,属于无线通信技术领域。本发明专利技术采用强化学习,在探索学习中适应接入情况的复杂变化,实时进行随机接入策略的调制,具有更好的适应能力。采用DPSA接入方法,对于冲突数据进行恢复,基于强化学习算法确定每帧最佳发送概率,在低信令开销的情况下,提升通信吞吐能力。根据等待时间长短对用户进行分类,并对其采取不同的发送策略,缩减用户整体AoI差距,解决通信公平性问题。本发明专利技术适用于无线通讯领域,使系统面对用户激活状况复杂变化的实时智能适应,选择合适的帧时隙发送概率,实现通信吞吐量与通信公平性的提升,实现用户的等待时间性能以及吞吐量性能之间的权衡优化。化。化。

【技术实现步骤摘要】
一种基于深度强化学习算法的增强型ALOHA接入方法


[0001]本专利技术涉及一种基于深度强化学习算法的增强型ALOHA接入方法,属于无线通信


技术介绍

[0002]随着移动通信网络的快速发展,尤其是面向M2M(Machine

to

Machine)的应用场景需满足海量设备的接入需求。海量业务终端对基站提出接入请求,并以调度方式完成设备接入时,由于设备数量过大,极容易造成接入过载,以及调度信令拥塞。这将导致业务接入时延过大并造成极高的调度开销,使得资源利用率低,为了降低调度开销,随机接入成为研究的热点。
[0003]ALOHA作为一种经典的随机接入方式,用户以在数据到达时即发送的方式完成接入,大大降低信令开销。但是当网络负载较重时,节点极易产生冲突,导致网络吞吐量仅为0.18。与此同时,部分用户可能长时间无法成功发送,产生通信过程的公平性问题。时隙ALOHA(Slotted ALOHA,SA)是对ALOHA进行改进,通过划分相等的时间片,每个时间片对应一个时隙,通过该限制减少了时间片内发生冲突的概率。时隙ALOHA信道利用率最高为0.368。分集时隙ALOHA(DSA)是在SA的基础上,采用了时间分集的方式,将各用户的数据包分成若干份,不同时间重复发送,以提升吞吐量。但是,上述方案中没有考虑到用户的等待时延这一指标,在发送过程中让用户随机发送,这样会导致部分用户产生过长的等待时间,使AOI过高,同时无法实时优化发送策略,使发送效率一直保持较优,而产生数据冲突导致的通信堵塞问题以及用户通信公平性问题。

技术实现思路

[0004]针对现有的随机接入方案,存在接入用户量复杂变化出现的发送策略无法适应,从而产生数据冲突导致的通信堵塞问题以及用户通信公平性问题,本专利技术的主要目的是提供一种基于深度强化学习算法的增强型ALOHA接入方法,通过实时智能改变发送策略,提升通信吞吐能力,并为通信公平性提供增益。
[0005]本专利技术的目的是通过以下方案实现的:
[0006]本专利技术公开的一种基于深度强化学习算法的增强型ALOHA接入方法,采用强化学习,在探索学习中适应接入情况的复杂变化,实时进行随机接入策略的调制,具有更好的适应能力。采用DPSA接入方法,对于冲突数据进行恢复,基于强化学习算法确定每帧最佳发送概率,在低信令开销的情况下,提升通信吞吐能力。根据等待时间长短对用户进行分类,并对其采取不同的发送策略,缩减用户整体AoI差距,解决通信公平性问题。实现系统面对用户激活状况复杂变化的实时智能适应,选择合适的帧时隙发送概率,实现通信吞吐量与通信公平性的提升。
[0007]本专利技术公开的一种基于深度强化学习算法的增强型ALOHA接入方法,包括以下步骤:
[0008]步骤1:小区用户以预定激活概率被随机激活,用户根据增强型ALOHA接入策略在每一帧发送数据。在接收端解码,得到当前帧通信吞吐能力以及等待时间最长用户的AoI,并分别构造解码成功用户集合与解码失败用户集合。具体步骤为:
[0009]步骤1.1:小区用户以一定概率激活,激活用户构成激活用户集合;
[0010]步骤1.2:AoI降序排列,标记序列前端部分用户为等待时间过长用户,其余标记为非等待时间过长用户;
[0011]步骤1.3:非等待时间过长用户,以一定基准帧时隙发送概率,在当前帧的M个时隙中分别随机决定是否发送数据包;等待时间过长用户,在上述基准帧时隙发送概率下,将概率提高,在当前帧的M个时隙中分别随机决定是否发送数据包。若在同一时隙中存在多个用户同时发送数据包而产生冲突,则对各用户数据包进行叠加发送;
[0012]步骤1.4:接收端根据干扰消除技术对数据进行译码。当前帧数据译码成功用户构成解码成功用户集合,当前帧数据译码失败用户构成解码失败用户集合;
[0013]步骤1.5:解码成功用户所对应状态中AoI清零,解码失败用户对应状态中AoI增大;
[0014]步骤1.6:计算得到当前帧通信吞吐能力以及等待时间最长用户的AoI,其中当前帧通信吞吐能力为解码成功用户数除以当前帧激活用户数,等待时间最长用户的AoI为状态中用户AoI的最大值。
[0015]步骤2:搭建强化学习框架,构建深度Q网络,即Deep Q Network,DQN,具体步骤为:
[0016]步骤2.1:构建状态空间与动作空间,其中状态空间由各用户当前激活状态与各用户AoI组成,动作空间由不同帧时隙基准发送概率组成,确定状态s为状态空间中的元素,动作a为动作空间中的元素;
[0017]步骤2.2:根据当前帧通信吞吐能力与等待时间最长用户的AoI给定阶梯化奖励;
[0018]步骤2.3:构建目标Q网络与实际Q网络,二者结构相同,采用全连接神经网络结构;
[0019]步骤2.4:使用均方误差损失作为损失函数。
[0020]步骤3:智能体前X帧在强化学习框架下进行探索,通过引入随机动作扩充经验回放池,为智能体提供学习数据,步骤具体为:
[0021]步骤3.1:智能体以ε的贪婪率进行贪婪学习,根据贪婪算法选择动作a;
[0022]步骤3.2:动作a作为帧时隙发送概率,进行DPSA随机接入,得到当前帧通信吞吐能力与等待时间最长用户的AoI以及下一帧的状态s


[0023]步骤3.3:根据当前帧通信吞吐能力与等待时间最长用户的AoI确定当前帧的奖励r;
[0024]步骤3.4:将当前帧状态s、当前帧动作a、当前帧奖励r、下一帧状态s

存储到经验回放池中。
[0025]步骤4:X帧后,随机采样经验回放池中的样本进行学习,训练神经网络拟合接入策略,并继续发送数据,设置批大小为B,学习率为α,衰减因子为γ,具体步骤为:
[0026]步骤4.1:随机采样B个样本,将其中下一帧状态s

输入到目标Q网络中,输出q
n

[0027]步骤4.2:根据样本中奖励r、衰减因子γ以及q
n
得到q
t
=r+γ(max(q
n
));
[0028]步骤4.3:上述样本中当前帧状态s输入到实际Q网络中,输出q
e

[0029]步骤4.4:设置损失函数为q
e
与q
t
的均方误差;
[0030]步骤4.5:根据梯度下降方法训练实际Q网络,学习率设置为α,批大小设置为B;
[0031]步骤4.6:每间隔Y帧,从实际Q网络中复制其权重以更新目标Q网络权重;
[0032]步骤4.7:X帧后,智能体将当前状态s输入到实际Q网络中,得到各动作对于Q值,选择Q值最大的作为当前帧动作a,以动作a作为当前帧发送概率发送数据,并得到此帧发送概率下的用户最大AoI以及通信吞吐性能情况,且在一定帧数后,用户平均最大AoI减小,通信吞吐性能明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习算法的增强型ALOHA接入方法,其特征在于,包括如下步骤:步骤1:小区用户以预定激活概率被随机激活,用户根据增强型ALOHA接入策略在每一帧发送数据;在接收端解码,得到当前帧通信吞吐能力以及等待时间最长用户的AoI,并分别构造解码成功用户集合与解码失败用户集合;步骤2:搭建强化学习框架,构建深度Q网络,即Deep Q Network,DQN;步骤3:智能体前X帧在强化学习框架下进行探索,通过引入随机动作扩充经验回放池,为智能体提供学习数据;步骤4:X帧后,随机采样经验回放池中的样本进行学习,训练神经网络拟合接入策略,并继续发送数据。2.如权利要求1所述的一种基于深度强化学习算法的增强型ALOHA接入方法,其特征在于,步骤1的实现方法为:步骤1.1:小区用户以一定概率激活,激活用户构成激活用户集合;步骤1.2:AoI降序排列,标记序列前端部分用户为等待时间过长用户,其余标记为非等待时间过长用户;步骤1.3:非等待时间过长用户,以一定基准帧时隙发送概率,在当前帧的M个时隙中分别随机决定是否发送数据包;等待时间过长用户,在上述基准帧时隙发送概率下,将概率提高,在当前帧的M个时隙中分别随机决定是否发送数据包;若在同一时隙中存在多个用户同时发送数据包而产生冲突,则对各用户数据包进行叠加发送;步骤1.4:接收端根据干扰消除技术对数据进行译码;当前帧数据译码成功用户构成解码成功用户集合,当前帧数据译码失败用户构成解码失败用户集合;步骤1.5:解码成功用户所对应状态中AoI清零,解码失败用户对应状态中AoI增大;步骤1.6:计算得到当前帧通信吞吐能力以及等待时间最长用户的AoI,其中当前帧通信吞吐能力为解码成功用户数除以当前帧激活用户数,等待时间最长用户的AoI为状态中用户AoI的最大值。3.如权利要求1所述的一种基于深度强化学习算法的增强型ALOHA接入方法,其特征在于,步骤2的实现方法为:步骤2.1:构建状态空间与动作空间,其中状态空间由各用户当前激活状态与各用户AoI组成,动作空间由不同帧时隙基准发送概率组成,确定状态s为状态空间中的元素,动作a...

【专利技术属性】
技术研发人员:于含笑赵涵昱匡镜明任仕伟费泽松郭婧
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1