【技术实现步骤摘要】
一种基于行为预测的多信道无线通信系统接入方法
[0001]本申请涉及无线通信
,特别是涉及一种基于行为预测的多信道无线通信系统接入方法
。
技术介绍
[0002]当前,传统的无线通信物理层通常采用单个信道进行数据传输,当该信道受到干扰或者接入的用户数量过多时,会造成无线传输信道的中断或者大量的碰撞冲突,从而造成无线网络性能的下降
。
因此,随着正交频分复用等无线网络技术的不断发展,将无线网络中的频谱资源划分为多个相互独立的子信道同时进行多个用户的接入,可以极大的提高无线网络的传输容量
。
在
5G
移动通信系统中,频谱资源划分为多个独立的时频资源块,同一网络中的用户可以同时选择不同的信道完成数据传输而不产生相互干扰
。
在传统的单信道无线通信系统中,相邻节点间的传输冲突和侦听退避等因素导致无线网络的传输效率降低
。
而多信道传输技术可以有效解决上述问题
。
[0003]在多信道网络接入协议中,需要设计相应的信道分配算法,为不同的通信节点分配相对应的信道,消除数据分组传输的冲突,使得尽可能多的节点可以同时进行数据传输
。
为了实现多信道分配,传统的解决方案包括基于忙音的多信道接入协议
、
基于专用控制信道的多信道接入协议和基于专用控制时隙的多信道接入协议等
。
[0004]然而,上述传统的多信道接入方法,存在无线网络传输效率低的技术问题
。
专利技 ...
【技术保护点】
【技术特征摘要】
1.
一种基于行为预测的多信道无线通信系统接入方法,其特征在于,包括步骤:参数初始化;所述参数包括无线网络的信道数,接入节点观测状态的历史长度,主神经网络的训练参数,经验池的容量,训练样本最小批大小,初始观测状态,传输成功率统计长度及收敛判断门限;获取所述接入节点的行为经验样本,将所述行为经验样本储存至所述经验池,直至所述经验池达到最大容量;所述行为经验样本包括所述接入节点的当前观测状态
、
当前执行动作
、
即时奖励和第二观测状态,所述当前观测状态为在所述历史长度内所述接入节点对各信道的观测结果;从所述经验池中随机抽取所述行为经验样本,对所述主神经网络进行训练,并根据训练结果更新所述主神经网络的训练参数,直至时间步达到时间门限值;根据更新后的所述主神经网络获得更新后的动作选择策略,根据更新后的所述动作选择策略接入信道
。2.
根据权利要求1所述的基于行为预测的多信道无线通信系统接入方法,其特征在于,所述时间步达到所述时间门限值之后还包括步骤:检测所述无线网络的环境稳定性,获得检测结果;当所述检测结果指示所述无线网络的环境不稳定时,从所述经验池中随机抽取所述行为经验样本,对所述主神经网络进行训练并根据训练结果更新所述主神经网络的训练参数,直至所述检测结果指示所述无线网络的环境稳定
。3.
根据权利要求1所述基于行为预测的多信道无线通信系统接入方法,其特征在于,获取所述接入节点行为的行为经验样本,将行为经验样本储存至所述经验池,直至所述经验池达到最大容量的步骤,包括:在当前获取轮次中,将所述接入节点的当前观测状态输入至所述主神经网络,输出动作价值函数值;根据所述动作价值函数值获得更新前的动作选择策略;根据所述更新前的动作选择策略获得当前执行动作,并根据所述当前执行动作接入信道;根据接入信道后数据发送结果获得即时奖励;所述数据发送结果为所述接入节点发送数据成功或所述接入节点发送数据失败;根据所述当前执行动作和所述数据发送结果更新当前观测状态,获得第二观测状态;根据所述当前观测状态
、
所述当前执行动作
、
所述即时奖励和所述第二观测状态组成行为经验样本,将所述行为经验样本储存至所述经验池中;将所述第二观测状态作为下一观测状态输入至所述主神经网络,输出下一动作价值函数值,进入下一获取轮次的样本获取;当所述经验池达到最大容量时,保存所述经验池中的所述行为经验样本
。4.
根据权利要求3所述基于行为预测的多信道无线通信系统接入方法,其特征在于,从所述经验池中随机抽取所述行为经验样本,对所述主神经网络进行训练,并根据训练结果更新所述主神经网络的训练参数,直至时间步达到时间门限值的步骤,包括:在当前训练轮次中,从所述经验池中随机抽取所述行为经验样本;抽取的所述行为经验样本数量满足所述训练样本最小批大小;
采用梯度下降算法更新损失函数中所述主神经网络的训练参数;根据更新后的所述主神经网络更新所述经验池;所述经验池遵循先入先出的储存原则;从更新后的所述经验池中随机抽取下一所述行为经验样本,进入下一训练轮次的训练;抽取的所述行为经验样本数量满足所述训练样本最小批大小;当所述时间步达到所述时间门限值时,保存训练后的所述主神经网络
。5.
根据权利要求2所述基于行为预测的多信道无线通信系统接入方法,其特征在于,检测所述无线网络的环境稳定性,获得检测结果的步骤,包括:根据所述传输成功率统计长度计算所述接入节点的平均奖励及奖励差值;根据所述奖励差值及所述收敛判断门限获得所述检测结果;所述奖励差值小于所述收敛判断门限,所述检测结果指示所述无线网络的环境稳定,所述奖励差值大于所述收敛判断门限,所述检测结果指示所述无线网络的环境不稳定
。6.
一种基于行为预测的多信...
【专利技术属性】
技术研发人员:宗康,白显宗,苏文山,吕良,
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。