基于深度增强学习的网络资源分配方法组成比例

技术编号:21168574 阅读:33 留言:0更新日期:2019-05-22 10:01
本发明专利技术揭示了一种基于深度增强学习的网络资源分配方法,包括如下步骤:S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率;S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题;S3、使用LSTM模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户;S4、建立RL‑LSTM框架,使得SBS完成对信道资源的有效分配。本发明专利技术充分考虑了用户的移动模式和用户所连接SBS的缓存状态,使得SBS选择传输条件最优的用户,提升了系统的网络吞吐量。

A Method of Network Resource Allocation Based on Deep Enhanced Learning

The invention discloses a network resource allocation method based on deep enhanced learning, which includes the following steps: S1, establishing a downlink system model of CSCN based on cache, calculating the data transmission rate of SBS by analyzing the data transmission rate of different links in the user's model; S2, putting forward a game problem, aiming at maximizing network throughput, using game theory to calculate the data transmission rate of SBS. The problem is formulated as a multi-agent non-cooperative game problem; S3, LSTM model is used to predict the user's mobile mode; SBS chooses the user with the best transmission condition according to the user's mobile mode and the buffer state of the SBS connected by the user; S4, establishes RL LSTM framework to enable SBS to complete the effective allocation of channel resources. The invention fully considers the user's mobile mode and the buffer state of the SBS connected by the user, makes the SBS select the user with the best transmission condition, and improves the network throughput of the system.

【技术实现步骤摘要】
基于深度增强学习的网络资源分配方法
本专利技术涉及一种资源分配方法,具体而言,涉及一种基于深度增强学习的网络资源分配方法,属于新型蜂窝网络的信道资源分配领域。
技术介绍
随着众多移动设备的广泛普及和应用,为了满足现阶段移动数据快速增长的需求,业内有关人士提出了大量全新的网络架构。基于缓存的CSCN(Cloud-basedsmallcellnetwork,云小型蜂窝网络CSCN)是目前最具前景的架构之一,其由一个云池和若干个连接于云池的SBS(smallbasestation,小基站)组成。由于SBS相对于宏基站具有功率小、价格低且能够灵活补充宏基站不能覆盖的盲区等优点,因此,对基于缓存的CSCN的资源分配研究非常有意义。传统的随机分配方法通过SBS随机分配信道给用户,尽管这一方法能够实现网络信道资源的分配,但是采用这样的方式,会出现信道资源利用率低的问题,从而会导致用户满意度的降低。综上所述,如何在现有技术的基础上提出一种全新的网络资源分配方法,充分结合诸多现有技术的优点、克服其不足,从而实现对信道资源的合理分配、最大限度地提高系统的网络吞吐量,也就成为了目前业内研究人员亟待解决的问题。
技术实现思路
鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种基于深度增强学习的网络资源分配方法,包括如下步骤:S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率;S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题;S3、使用LSTM模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户;S4、建立RL-LSTM框架,使得SBS完成对信道资源的有效分配。优选地,S1包括如下步骤:S11、建立基于缓存的CSCN的下行传输链路系统模型,所述基于缓存的CSCN的下行传输链路系统模型由一个云池和连接在云池上的L个SBS组成,每个SBS由l表示,时间段τ内考虑系统的网络吞吐量,将τ划分为F个等时间的时间周期t,τ=Ft;在所述基于缓存的CSCN的下行传输链路系统模型中,U个用户由所有SBS通过C个子信道提供服务,每个子信道由c表示,每个用户连接到最近的SBS,在每个SBS中,每个子信道每次只能分配给一个用户,每个用户每次仅占用一个子信道,pl,c(t)代表在时间周期tSBSl的子信道c的传输功率;内容服务器存储的请求内容为M,每个SBS的缓存存储的内容为G,其中G≤M;用户请求的内容可通过两种传输链路进行独立传输,所述两种传输链路分别为由SBS缓存至用户以及由云池至SBS缓存再至用户。优选地,S1还包括如下步骤:S12、计算用户通过由SBS缓存至用户这一链路的传输速率,用户在SBSl的子信道c的数据传输速率为其中,gl,c(t)为信道增益系数,为路径损耗系数,dl,c(t)为在时间周期t用户与SBSl之间的距离,σ2为高斯噪声的功率;S13、计算用户通过由云池至SBS缓存再至用户这一链路的传输速率,用户在SBSl的子信道c的数据传输速率为其中,Vf为用户在回程链路的数据传输速率,Rl,c,1(t)为SBSl通过由SBS缓存至用户这一链路的数据传输速率;S14、结合S12及S13的结果,得出在时间周期t内SBSl的数据传输速率为其中,αl,c,t∈[0,1]表示在时间周期t内在子信道c上SBSl占用的时间百分比;和均为指标函数,若SBSl通过由SBS缓存至用户这一链路通信并占用了子信道c,那么为1,否则为0;若SBSl通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c,那么为1,否则为0。优选地,S2包括如下步骤:S21、使用博弈论将问题公式转化为一个多智能体非合作博弈问题,其中L个SBS代表L个博弈方,集合Al={al,1,...,al,a,...,al,Al}是博弈方l可选择的一组动作向量,|Al|表示动作向量的数量;是Al上的概率空间分布,其中,πl,a=Pr(a=al,a)表示博弈方l采用动作向量al,a的概率;SBSl的一个动作向量表示为al=[(al,1,1,...,al,1,F),...,(al,C,1,...,al,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置,包括在每个时间周期tSBS是否选择了子信道c及在时间周期t在子信道c上占用的时间;在τ的每一个时间周期t内每个SBS必须选择一个动作对al,c,t=(xl,c,t,αl,c,t)∈Al,其中,xl,c,t∈{0,1}表示如果在时间周期tSBSl选择了信道c,xl,c,t=1,否则为xl,c,t=0;αl,c,t∈[0,1]表示在时间周期t在子信道c上SBSl占用的时间百分比;S22、根据S14中的公式,计算出在时间段τ内SBSl的效用函数为其中,al表示SBSl的动作向量,a-l(t)表示其他所有SBS的动作向量,Rl(t)为在时间周期tSBSl的传输速率;S23、每个SBS的目标均为最大化其效用函数,因此目标函数可写为其中,l'表示除SBSl外,其他所有的SBS;S24、根据所有SBS的策略来定义性能,每个SBS的目标是参考所有其他SBS的动作空间的概率分布,选择最优概率分布πl来最大化效用函数,将博弈问题写成优选地,S3包括如下步骤:S31、对用户移动位置进行预测,使用LSTM模型来预测用户在下一个τ的位置,公式为yτ=σ(W'hτ),fτ=σ(Wf[hτ-1,xτ]+bf),iτ=σ(Wi[hτ-1,xτ]+bi),oτ=σ(Wo[hτ-1,xτ]+bo),Cτ=fτ*Cτ-1+iτ*tanh(Wc[hτ-1,xτ]+bc),其中,xτ=[pτ-k+1,...,pτ-k+i,...,pτ]是输入向量,pT-k+i代表用户在时间段T-k+1的位置;yτ是输出值,表示用户在下一个τ的预测位置;hτ是隐藏层输出向量;Cτ是细胞状态;Wi、Wo、Wf和Wc分别是当前输入向量xτ和输入门、输出门、遗忘门及细胞连接上的权重参数矩阵;W'是隐藏层和输出层连接上的权重参数矩阵;σ和tanh都是激活函数;S32、对用户传输条件进行评估,在时间周期t中,评估用户的传输条件的函数可定义为f(t)=w1I(t)-w2d(t),其中,I(t)∈(0,1)表示在时间周期t某个用户连接的SBS是否有其需要的缓存内容,有则I(t)=1,否则I(t)=0;d(t)表示这个用户和它所连接SBS之间的距离;w1和w2均为大于零的权重因子;用户的f(t)与用户被SBS选择的可能性成正比。优选地,S4包括如下步骤:S41、建立RL-LSTM框架,所述RL-LSTM框架由M个LSTM编码器、L个LSTM解码器以及多层感知网络(MLP)组成,每个SBS都被建模为LSTM网络解码器。解码器l预测第t个时间周期的动作向量xl,t和αl,c,t,xl,t和αl,c,t上的概率向量分别为μl,c,t=S(Wμhl,t),αl,c,t~N(μl,c,t,Var(αl,c,t)),其中,μl,c,t和Var(αl,c,t)分别是高斯分布的均值和方差;和Wμ∈Rn是参数;σ(.)是softmax本文档来自技高网...

【技术保护点】
1.一种基于深度增强学习的网络资源分配方法,其特征在于,包括如下步骤:S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率;S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题;S3、使用LSTM模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户;S4、建立RL‑LSTM框架,使得SBS完成对信道资源的有效分配。

【技术特征摘要】
1.一种基于深度增强学习的网络资源分配方法,其特征在于,包括如下步骤:S1、建立基于缓存的CSCN的下行传输链路系统模型,通过分析用户使用模型中不同链路的数据传输速率计算SBS的数据传输速率;S2、提出博弈问题,以最大化网络吞吐量为目标,使用博弈论将问题公式化为一个多智能体非合作博弈问题;S3、使用LSTM模型来预测用户的移动模式,SBS根据用户的移动模式以及用户所连接的SBS的缓存状态来选择传输条件最优的用户;S4、建立RL-LSTM框架,使得SBS完成对信道资源的有效分配。2.根据权利要求1所述的基于深度增强学习的网络资源分配方法,其特征在于,S1包括如下步骤:S11、建立基于缓存的CSCN的下行传输链路系统模型,所述基于缓存的CSCN的下行传输链路系统模型由一个云池和连接在云池上的L个SBS组成,每个SBS由l表示,时间段τ内考虑系统的网络吞吐量,将τ划分为F个等时间的时间周期t,τ=Ft;在所述基于缓存的CSCN的下行传输链路系统模型中,U个用户由所有SBS通过C个子信道提供服务,每个子信道由c表示,每个用户连接到最近的SBS,在每个SBS中,每个子信道每次只能分配给一个用户,每个用户每次仅占用一个子信道,pl,c(t)代表在时间周期tSBSl的子信道c的传输功率;内容服务器存储的请求内容为M,每个SBS的缓存存储的内容为G,其中G≤M;用户请求的内容可通过两种传输链路进行独立传输,所述两种传输链路分别为由SBS缓存至用户以及由云池至SBS缓存再至用户。3.根据权利要求2所述的基于深度增强学习的网络资源分配方法,其特征在于,S1还包括如下步骤:S12、计算用户通过由SBS缓存至用户这一链路的传输速率,用户在SBSl的子信道c的数据传输速率为其中,gl,c(t)为信道增益系数,为路径损耗系数,dl,c(t)为在时间周期t用户与SBSl之间的距离,σ2为高斯噪声的功率;S13、计算用户通过由云池至SBS缓存再至用户这一链路的传输速率,用户在SBSl的子信道c的数据传输速率为其中,Vf为用户在回程链路的数据传输速率,Rl,c,1(t)为SBSl通过由SBS缓存至用户这一链路的数据传输速率;S14、结合S12及S13的结果,得出在时间周期t内SBSl的数据传输速率为其中,αl,c,t∈[0,1]表示在时间周期t内在子信道c上SBSl占用的时间百分比;和均为指标函数,若SBSl通过由SBS缓存至用户这一链路通信并占用了子信道c,那么为1,否则为0;若SBSl通过由云池至SBS缓存再至用户这一链路通信并占用了子信道c,那么为1,否则为0。4.根据权利要求3所述的基于深度增强学习的网络资源分配方法,其特征在于,S2包括如下步骤:S21、使用博弈论将问题公式转化为一个多智能体非合作博弈问题,其中L个SBS代表L个博弈方,集合是博弈方l可选择的一组动作向量,|Al|表示动作向量的数量;是Al上的概率空间分布,其中,πl,a=Pr(a=al,a)表示博弈方l采用动作向量al,a的概率;SBSl的一个动作向量表示为al=[(al,1,1,...,al,1,F),...,(al,C,1,...,al,C,F)],每个动作向量代表在时间段τ内一个SBS对所有C个子信道进行分配的配置,包括在每个时间周期tSBS是否选择了子信道c及在时间周期t在子信道c上占用的时间;在τ的每一个时间周期t内每个SBS必须选择一个动作对al,c,t=(xl,c,t,αl,c,t)∈Al,其中,xl,c,t∈{0,1}表示如果在时间周期tSBSl选择了信道c,xl,c,t=1,否则为xl,c,t=0;αl,c,t∈[0,1]表示在...

【专利技术属性】
技术研发人员:潘甦张亚楠
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1