一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法技术

技术编号：26976747 阅读：27 留言：0更新日期：2021-01-06 00:14

本发明专利技术公开了一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法，其技术方案要点是包括提供信道分配系统以及若干用户终端，信道分配系统与用户终端通信连接；信道分配系统内配置有遵循部分可观测马尔可夫链的动态多信道模型，动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式，最优策略算法通过深度强化学习方法进行训练优化。该方法通过深度强化学习避免了庞大的指数级计算量，在保证用户终端通信质量的前提下，使得用户终端可以快速接入最优信道，提高频谱利用率。

全部详细技术资料下载

【技术实现步骤摘要】
一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
本专利技术涉及通信
，更具体的说是涉及一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法。
技术介绍
无线频谱是无线通信中的一种有限而珍贵的自然资源，现有无线通信是采取基于授权的方法分配频谱，即将无线频谱划分成若干固定宽度的频谱段，由政府管理部门分配给用户终端单独使用。但是随着无线通信技术的迅速发展以及新业务的不断增长，加之，频谱利用率的低效带来的频谱资源短缺的问题，频谱资源变得越来越稀缺，日益稀缺的频谱已经无法满足无线通信日益增长的需求。这一现象也促进了高效地动态频谱接入方案的发展，以迎合新兴的无线网络技术。其中认知无线电技术已经成为提高频谱利用率的关键技术，该技术的主要思想是检测哪些频谱处于空闲状态，然后智能选择和接入这些空闲频谱，这样能够大大提高频谱利用率。作为认知无线电技术的关键技术之一的动态频谱接入技术的研究正在展开，现有的方法主要是马尔可夫建模，即将用户终端的动态频谱接入过程建模成马尔可夫模型。用二维或者多维的马尔可夫链精确的描述接入过程。通过马尔可夫建模虽然能够提高频谱利用率，但是对环境的要求较高，且系统没有经过学习的过程，收敛速度慢。随着强化学习的蓬勃发展，给动态频谱接入技术带来了新的研究。强化学习是指从环境状态到动作映射的学习，强化学习着重研究在状态转移概率函数未知的情况下，系统如何学习最优行为策略。强化学习对环境知识要求较少，对动态变化环境适应性强，应用到无线网络时兼容性较好，这些特点都使得强化学习在认知...

【技术保护点】
1.一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法，其特征在于：提供信道分配系统以及若干用户终端，所述信道分配系统与所述用户终端通信连接；/n所述信道分配系统内配置有动态多信道模型，所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式，所述信道状态表征在所述信道上是否成功发送数据，所述最优策略算法通过深度强化学习方法进行优化，所述深度强化学习方法包括以下步骤；/nS10，所述信道分配系统内配置有经验池、主神经网络以及目标神经网络，所述经验池用于存储数据集，所述经验池具有容量阀值D，所述容量阀值D表征所述经验池存储数据集的最大值，通过所述最优策略算法构建所述主神经网络和目标神经网络，所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重，所述信道状态为s，所述执行动作为a，所述执行动作a表征信道的分配方式，所述神经网络的权重为w，另目标神经网络的权重等于主神经网络的权重，并进入S20；/nS20，所述信道分配系统根据用户终端当前时隙分配的信道的信道状态s，通过预设的分配算法得到下一时隙的执行动作a，并进入S30；/n...

【技术特征摘要】
1.一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法，其特征在于：提供信道分配系统以及若干用户终端，所述信道分配系统与所述用户终端通信连接；
所述信道分配系统内配置有动态多信道模型，所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式，所述信道状态表征在所述信道上是否成功发送数据，所述最优策略算法通过深度强化学习方法进行优化，所述深度强化学习方法包括以下步骤；
S10，所述信道分配系统内配置有经验池、主神经网络以及目标神经网络，所述经验池用于存储数据集，所述经验池具有容量阀值D，所述容量阀值D表征所述经验池存储数据集的最大值，通过所述最优策略算法构建所述主神经网络和目标神经网络，所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重，所述信道状态为s，所述执行动作为a，所述执行动作a表征信道的分配方式，所述神经网络的权重为w，另目标神经网络的权重等于主神经网络的权重，并进入S20；
S20，所述信道分配系统根据用户终端当前时隙分配的信道的信道状态s，通过预设的分配算法得到下一时隙的执行动作a，并进入S30；
S30，所述信道分配系统根据执行动作a分配信道至用户终端，所述通信分配系统通过预设的奖励算法，以用户终端是否通过信道成功发送数据为变量，计算得到奖励值rt+1并保存，并进入S40；
S40，所述信道分配系统通过当前时隙的信道状态st、当前时隙的执行动作at获得下一时隙的信道状态st+1，并将(st,at,rt,st+1)作为一组数据集保存至所述经验池，rt为t-1时隙的信道状态st-1，执行动作at-1后在t时隙获得的奖励值，并进入S50；
S50，判断所述经验池的容量是否达到所述容量阀值D，若未达到，则令st＝st+1并返回步骤S20；反之，则进入步骤S60；
S60，所述信道分配系统以随机采样方式从所述经验池中获取若干组数据集(st,at,rt,st+1)，所述主神经网络对每组数据集进行训练得到估计Q值，所述目标神经网络通过预设的实际Q值算法计算得到实际Q值，并进入S70；
S70，通过预设的误差算法计算估计Q值与实际Q值的误差值，并根据梯度下降法更新主神经网络的权重w，并进入S80；
S80，每隔预设的更新间隔步数C，令w-＝w，所述更新间隔步数C表征将目标经网络的权重改为主神经网络的权重所经过的步数，并进入S90；
S90，将误差值与预设的收敛临界值比较，当误...

【专利技术属性】
技术研发人员：徐友云，李大鹏，蒋锐，
申请(专利权)人：南京爱而赢科技有限公司，南京南邮通信网络产业研究院有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人