一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法技术

技术编号:26976747 阅读:27 留言:0更新日期:2021-01-06 00:14
本发明专利技术公开了一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其技术方案要点是包括提供信道分配系统以及若干用户终端,信道分配系统与用户终端通信连接;信道分配系统内配置有遵循部分可观测马尔可夫链的动态多信道模型,动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,最优策略算法通过深度强化学习方法进行训练优化。该方法通过深度强化学习避免了庞大的指数级计算量,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。

【技术实现步骤摘要】
一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
本专利技术涉及通信
,更具体的说是涉及一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法。
技术介绍
无线频谱是无线通信中的一种有限而珍贵的自然资源,现有无线通信是采取基于授权的方法分配频谱,即将无线频谱划分成若干固定宽度的频谱段,由政府管理部门分配给用户终端单独使用。但是随着无线通信技术的迅速发展以及新业务的不断增长,加之,频谱利用率的低效带来的频谱资源短缺的问题,频谱资源变得越来越稀缺,日益稀缺的频谱已经无法满足无线通信日益增长的需求。这一现象也促进了高效地动态频谱接入方案的发展,以迎合新兴的无线网络技术。其中认知无线电技术已经成为提高频谱利用率的关键技术,该技术的主要思想是检测哪些频谱处于空闲状态,然后智能选择和接入这些空闲频谱,这样能够大大提高频谱利用率。作为认知无线电技术的关键技术之一的动态频谱接入技术的研究正在展开,现有的方法主要是马尔可夫建模,即将用户终端的动态频谱接入过程建模成马尔可夫模型。用二维或者多维的马尔可夫链精确的描述接入过程。通过马尔可夫建模虽然能够提高频谱利用率,但是对环境的要求较高,且系统没有经过学习的过程,收敛速度慢。随着强化学习的蓬勃发展,给动态频谱接入技术带来了新的研究。强化学习是指从环境状态到动作映射的学习,强化学习着重研究在状态转移概率函数未知的情况下,系统如何学习最优行为策略。强化学习对环境知识要求较少,对动态变化环境适应性强,应用到无线网络时兼容性较好,这些特点都使得强化学习在认知无线电领域的营业具有广泛的前景。然而,当用户终端数剧增时,强化学习产生的状态量也是幂级的,算法复杂度变得非常大,这种指数级计算量导致强化学习难以实际运用。
技术实现思路
针对现有技术存在的不足,本专利技术的目的在于提供一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,该方法能够避免进行庞大的指数级计算,在保证用户终端通信质量的前提下,使得用户终端可以快速接入最优信道,提高频谱利用率。为实现上述目的,本专利技术提供了如下技术方案:一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,提供信道分配系统以及若干用户终端,所述信道分配系统与所述用户终端通信连接;所述信道分配系统内配置有遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,所述信道状态表征在所述信道上是否成功发送数据,所述最优策略算法通过深度强化学习方法进行优化,所述深度强化学习方法包括以下步骤;S10,所述信道分配系统内配置有经验池、主神经网络以及目标神经网络,所述经验池用于存储数据集,所述经验池具有容量阀值D,所述容量阀值D表征所述经验池存储数据集的最大值,通过所述最优策略算法构建所述主神经网络和目标神经网络,所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重,所述信道状态为s,所述执行动作为a,所述执行动作a表征信道的分配方式,所述神经网络的权重为w,另目标神经网络的权重等于主神经网络的权重,并进入S20;S20,所述信道分配系统根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a,并进入S30;S30,所述信道分配系统根据执行动作a分配信道至用户终端,所述通信分配系统通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值rt+1并保存,并进入S40;S40,所述信道分配系统通过当前时隙的信道状态st、当前时隙的执行动作at获得下一时隙的信道状态st+1,并将(st,at,rt,st+1)作为一组数据集保存至所述经验池,rt为t-1时隙的信道状态st-1,执行动作at-1后在t时隙获得的奖励值,并进入S50;S50,判断所述经验池的容量是否达到所述容量阀值D,若未达到,则令st=st+1并返回步骤S20;反之,则进入步骤S60;S60,所述信道分配系统以随机采样方式从所述经验池中获取若干组数据集(st,at,rt,st+1),所述主神经网络对每组数据集进行训练得到估计Q值,所述目标神经网络通过预设的实际Q值算法计算得到实际Q值,并进入S70;S70,通过预设的误差算法计算估计Q值与实际Q值的误差值,并根据梯度下降法更新主神经网络的权重w,并进入S80;S80,每隔预设的更新间隔步数C,令w-=w,所述更新间隔步数C表征将目标经网络的权重改为主神经网络的权重所经过的步数,并进入S90;S90,将误差值与预设的收敛临界值比较,当误差值大于收敛临界值时,返回步骤S30,反之,则结束,所述收敛临界值表征主神经网络收敛状态下的最大误差值。作为本专利技术的进一步改进,所述动态多信道模型为遵循部分可观测马尔可夫链的动态多信道模型,所述动态多信道模型遵循的约束条件为:C1:C2:C3:C4:Ω(t+1)=Ω'(t)PC5:C6:其中:C1为部分可观测马尔可夫链的状态空间,每个状态si(i∈{1,2,...,3N})都是一个长度为N的向量[si1,...,sij,...,siN],sij表示j信道的信道状态;C2是置信向量,为所述信道分配系统处于si状态,并且知道过去时隙的执行动作以及下一时隙的各个信道的信道状态的条件概率;C3是置信向量中每个可能的状态的更新方式,I(·)是一个指示函数,a(t)为t时隙用户终端接入的信道,o(t)为t时隙用户终端接入的信道的信道状态观测值,所述观测值为1表征信道状态好,所述观测值为0.5表征信道状态不确定,所述观测值为0表征信道状态差;C4是置信向量的更新公式,P是部分可观测马尔可夫链的转移矩阵;C5是最优策略算法,γ为预设的折扣因子,rt+1为t时隙的信道状态s执行动作a后在t+1时隙获得的奖励值;C6是当累计的奖励值最大时得到的最优的信道分配策略。作为本专利技术的进一步改进,所述分配算法配置为:其中,表示当前主神经网络估计Q值最大的接入动作,arandom表示在所有可能的接入方案中随机选择一种接入方案,ε为预设的分配概率值。作为本专利技术的进一步改进,所述奖励算法配置为:作为本专利技术的进一步改进,所述实际Q值算法配置为:其中,yt为所述实际Q值。作为本专利技术的进一步改进,所述误差算法配置为:L(w)=(yt-Q(st,at;w))2其中,L(w)为所述误差值。本专利技术的有益效果:信道分配系统中配置有动态多信道模型,用于计算最优信道分配方式,并通过深度强化学习实现对最优策略算法的不断优化。该动态多信道接入方法降低了对环境的要求,使得信道分配系统可以经过学习快速将各信道以最优化的方式分配至各个用户终端,并且将动态多信道模型通过深度强化学习方法进行求解,由此避免了庞大的指数级计算量。因此该动态多信道接入方法能够避免进行庞本文档来自技高网
...

【技术保护点】
1.一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其特征在于:提供信道分配系统以及若干用户终端,所述信道分配系统与所述用户终端通信连接;/n所述信道分配系统内配置有动态多信道模型,所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,所述信道状态表征在所述信道上是否成功发送数据,所述最优策略算法通过深度强化学习方法进行优化,所述深度强化学习方法包括以下步骤;/nS10,所述信道分配系统内配置有经验池、主神经网络以及目标神经网络,所述经验池用于存储数据集,所述经验池具有容量阀值D,所述容量阀值D表征所述经验池存储数据集的最大值,通过所述最优策略算法构建所述主神经网络和目标神经网络,所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重,所述信道状态为s,所述执行动作为a,所述执行动作a表征信道的分配方式,所述神经网络的权重为w,另目标神经网络的权重等于主神经网络的权重,并进入S20;/nS20,所述信道分配系统根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a,并进入S30;/nS30,所述信道分配系统根据执行动作a分配信道至用户终端,所述通信分配系统通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值r...

【技术特征摘要】
1.一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法,其特征在于:提供信道分配系统以及若干用户终端,所述信道分配系统与所述用户终端通信连接;
所述信道分配系统内配置有动态多信道模型,所述动态多信道模型根据当前时隙的各信道状态通过最优策略算法计算下一时隙的最优信道分配方式,所述信道状态表征在所述信道上是否成功发送数据,所述最优策略算法通过深度强化学习方法进行优化,所述深度强化学习方法包括以下步骤;
S10,所述信道分配系统内配置有经验池、主神经网络以及目标神经网络,所述经验池用于存储数据集,所述经验池具有容量阀值D,所述容量阀值D表征所述经验池存储数据集的最大值,通过所述最优策略算法构建所述主神经网络和目标神经网络,所述主神经网络和所述目标神经网络的参数均包括信道状态、执行动作以及神经网络的权重,所述信道状态为s,所述执行动作为a,所述执行动作a表征信道的分配方式,所述神经网络的权重为w,另目标神经网络的权重等于主神经网络的权重,并进入S20;
S20,所述信道分配系统根据用户终端当前时隙分配的信道的信道状态s,通过预设的分配算法得到下一时隙的执行动作a,并进入S30;
S30,所述信道分配系统根据执行动作a分配信道至用户终端,所述通信分配系统通过预设的奖励算法,以用户终端是否通过信道成功发送数据为变量,计算得到奖励值rt+1并保存,并进入S40;
S40,所述信道分配系统通过当前时隙的信道状态st、当前时隙的执行动作at获得下一时隙的信道状态st+1,并将(st,at,rt,st+1)作为一组数据集保存至所述经验池,rt为t-1时隙的信道状态st-1,执行动作at-1后在t时隙获得的奖励值,并进入S50;
S50,判断所述经验池的容量是否达到所述容量阀值D,若未达到,则令st=st+1并返回步骤S20;反之,则进入步骤S60;
S60,所述信道分配系统以随机采样方式从所述经验池中获取若干组数据集(st,at,rt,st+1),所述主神经网络对每组数据集进行训练得到估计Q值,所述目标神经网络通过预设的实际Q值算法计算得到实际Q值,并进入S70;
S70,通过预设的误差算法计算估计Q值与实际Q值的误差值,并根据梯度下降法更新主神经网络的权重w,并进入S80;
S80,每隔预设的更新间隔步数C,令w-=w,所述更新间隔步数C表征将目标经网络的权重改为主神经网络的权重所经过的步数,并进入S90;
S90,将误差值与预设的收敛临界值比较,当误...

【专利技术属性】
技术研发人员:徐友云李大鹏蒋锐
申请(专利权)人:南京爱而赢科技有限公司南京南邮通信网络产业研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1