一种基于深度强化学习的异构蜂窝网络联合优化方法技术

技术编号:19516530 阅读:21 留言:0更新日期:2018-11-21 10:48
本发明专利技术属于无线通信技术领域,具体涉及一种基于深度强化学习的异构蜂窝网络联合优化方法。针对下行链路异构蜂窝网络中的用户关联,资源分配和功率控制的联合优化问题,在考虑到联合优化问题的非凸性和组合特性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体深度强化学习优化策略,结合用户满意度和运营商追求利益的条件,利用深度强化学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。

【技术实现步骤摘要】
一种基于深度强化学习的异构蜂窝网络联合优化方法
本专利技术属于无线通信
,具体涉及一种基于深度强化学习的异构蜂窝网络联合优化方法。
技术介绍
随着无线通信技术的快速发展,异构蜂窝网络面临着日益增长的网络容量需求的巨大挑战。异构蜂窝网络可以平衡流量负载和降低小型设备费用,这在下一代蜂窝网络中被认为是有前途的技术。目前异构蜂窝网络依旧存在诸多问题,如用户关联、资源分配和功率控制等问题。由于联合优化问题的高维动作空间,使用强化学习方法获得最优策略具有一定难度。考虑到联合优化问题的高维动作空间,深度强化学习(DeepReinforcementLearning,DRL)可以被认为是一个有希望来处理复杂的控制问题的技术。通过将深度神经网络(DeepNeuralNetwork,DNN)与强化学习相结合,可以提高深度Q网络(DeepQ-Network,DQN)的学习性能和学习效率。因此,本方法提出基于深度强化学习的异构蜂窝网络联合优化方法。
技术实现思路
为了克服上述现有技术存在的不足,本专利技术的目的在于提出一种基于深度强化学习的异构蜂窝网络联合优化方法。为了达到上述目的,本专利技术所采用的技术方案是:一种基于深度强化学习的异构蜂窝网络联合优化方法,其特征在于,所述方法包括如下步骤:针对下行链路异构蜂窝网络中的用户关联,资源分配和功率控制的联合优化问题,在考虑到联合优化问题的非凸性和组合特性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体深度强化学习优化策略,结合用户满意度(Qualityofservice,Qos)和运营商追求利益的条件,利用深度强化学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。进一步地,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、FBSs和用户设备(UserEquipments,UEs)组成的两层异构蜂窝网络。假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL}。假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作。对于任意一个UE,定义二元信道分配变量为:其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道。因此,对于每一个UE,有此外,定义二元联合基站变量:其中,在时间t,如果第i个用户连接到第l个基站,则否则,考虑到每个UE只能接入一个基站,对于每一个UE,有假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比(SignaltoInterferencePlusNoiseRatio,SINR)为:其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率。于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:在双层异构蜂窝网络中,UE想保证其QoS要求下使BS的传输速率最大化。BS希望以最低的运营成本维持UE的QoS要求。因此,要处理相互冲突的目标在UE和BS之间考虑BS的运营成本。同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ωi,即此外,假设第k个信道下行链路的数据传输成本为:其中,λ1是BS传输功率的单位价格。于是,第i个UE总传输成本为:定义第i个UE的效用wi(t)为收入利润与运营成本之差,可以写成其中,ρ>0为每个用户单位速率的收益。注意,在异构网络中,每个UE考虑用户关联,资源分配和功率控制的联合优化问题以最大化其长期奖励。在这里,定义长期奖励lri(t)作为无限期瞬时奖励的总和,即其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。进一步地,所述多智能体深度强化学习优化策略,所采取的实现过程包括:定义状态空间,行动空间和奖励函数有关的基本强化学习元素。在这种异构蜂窝网络中,每个UE都扮演着一个智能体的角色。因此,提出分布式多智能体强化学习优化策略。状态空间:目标状态s(t)由N个UE的服务质量综合确定。s(t)={s1(t),s2(t),...,sN(t)}当用户对服务质量满意时就等于1,不满意就是0。动作空间:每个UE选择附近的BS、传输信道和功率水平。考虑到实际应用场景,发射功率一般为离散值。于是,考虑M个功率水平,即P1,...,PM。功率水平选择变量定义为:其中,如果BS选择传输功率pm,则否则,考虑到BS传输时只能选择一种功率水平,于是有:于是,每一个UE的动作空间中四个变量:奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:其中,ψi是动作选择成本。当UE的SINR大于最低Qos需求,则UE的效用就是其奖励。否则,UE的奖励就是其动作的选择成本。考虑到其简单性和分布性特点,采用分布式多智能体强化学习。每个UE通过消息传递来获得全局状态空间,并基于全局状态空间以获得最优策略。每个UE不需要发送自身的最优策略,而是一个比特位(0或1)来发送其当前状态给其他UE。每个UE需要找到在每个状态下的最优策略,以获得累计收益的最大化。第i个UE的累计收益定义为:其中,E表示学习期望,它与时间t无关。由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关。于是,值函数可简化为:其中,ui(s,ai)是Ri(s,ai)的数学期望,Ps,s'(ai)表示从状态s到状态s'的转移概率。于是,基于贝尔曼准则,最优策略为:于是,得到最优Q值函数基于上述最优Q值函数最优策略可得:一般来说,很难获得准确的转移概率Ps,s'(ai)。然而,基于可用信息(s,ai,s',E[ui(s,πi(s))]),利用Q学习,可以以递归方式获得最优策略。同时,为了解决较大空间联合问题,将深度神经网络(DeepNeuralNetwork,DNN)引入到Q学习的框架中,深度Q网络(DeepQNetwork,DQN)是最有效的方法。在DQN中,DNN可以很好地表示大型空间变量。此外,可以使用DNN通过从状态映射到动作来近似Q值函数。神经网络函数近似其中权重θ被用作Q网络参数。Q网络在每次迭代中更新其权重θ以此尽量降低损失函数:其中DQN函数:定义θ为在线网络Qi(s,ai;θ)的权重,并且θ-为目标网络的权重。尽管目标网络是在线网络的副本,但在更新在线网络函数时θ-被多次迭代。动作ai是从Qi(s,ai;θ)中选择一个简单的ε-greedy策略。在DQN中,为了解决算法的不稳定性,可以使用经验再现策略。在学习过程中,不是只使用当前的经验(s,ai,ui(s,ai),s′),而是通过抽取小批量的经验从重放存储器D随机均匀地重放。在这些训练实例中通过减少相关性,经验重播策略确保最优策略不被驱赶到局部最小值。此外,由于在Q学习和DQN方法中使用相同的值来选择和评估动作,所以Q值函数可能过于近似地估计。因此,使用深度双Q网络(DoubleDeepQNetwork,DDQN)通过将目标替换为下述目标来缓解上述问题:更具体地说,在线网络和目标网络都采用下一个状态s′来计算最佳值Qi(本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的异构蜂窝网络联合优化方法,其特征在于,所述方法包括如下步骤:针对下行链路异构蜂窝网络中的用户关联,资源分配和功率控制的联合优化问题,在考虑到联合优化问题的非凸性和组合特性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体深度强化学习优化策略,结合用户满意度和运营商追求利益的条件,利用深度强化学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。

【技术特征摘要】
1.一种基于深度强化学习的异构蜂窝网络联合优化方法,其特征在于,所述方法包括如下步骤:针对下行链路异构蜂窝网络中的用户关联,资源分配和功率控制的联合优化问题,在考虑到联合优化问题的非凸性和组合特性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体深度强化学习优化策略,结合用户满意度和运营商追求利益的条件,利用深度强化学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。2.根据权利要求1所述的基于深度强化学习的异构蜂窝网络联合优化方法,其特征在于,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、FBSs和用户设备(UserEquipments,UEs)组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL},假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作;对于任意一个UE,定义二元信道分配变量为:其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道,因此,对于每一个UE,有此外,定义二元联合基站变量:其中,在时间t,如果第i个用户连接到第l个基站,则否则,考虑到每个UE只能接入一个基站,对于每一个UE,有假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比为:其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率;于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:在双层异构蜂窝网络中,UE想保证其QoS要求下使BS的传输速率最大化,BS希望以最低的运营成本维持UE的QoS要求,因此,要处理相互冲突的目标在UE和BS之间考虑BS的运营成本;同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ωi,即此外,假设第k个信道下行链路的数据传输成本为:其中,λ1是BS传输功率的单位价格,于是,第i个UE总传输成本为:定义第i个UE的效用wi(t)为收入利润与运营成本之差,可以写成其中,ρ>0为每个用户单位速率的收益;在异构网络中,每个UE考虑用户关联,资源分配和功率控制的联合优化问题以最大化其长期奖励,定义长期奖励lri(t)作为无限期瞬时奖励的总和,即其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。3.根据权利要求1所述的基于深度强化学习的异构蜂窝网络联合优化方法,其特征在于,所述多智能体深度强化学习优化策略,所采取的实现过程包括:定义状态空间,行动空间和奖励函数有关的基本强化学习元素,在这种异构蜂窝网络中,每个UE都扮演着一个智能体的角色,因此,提出分布式多智能体强化学习优化策略;状态空间:目标状态s(t)由N个UE的服务质量综合确定;s(t)={s1(t),s2(t),...,sN(t)}当用户对服务质量满意时就等于1,不满意就是0;动作空间:每个UE选择附近的BS、传输信道和功率水平;考虑到实际应用场景,发射功率一般为离散值;于是,考虑M个功率水平,即P1,...,PM;功率水平选择变量定义为:其中,如果BS选择传输功率pm,则否则,考虑到BS传输时只能选择一种功率水平,于是有:于是,每一个UE的动作空间中四个变量:奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:...

【专利技术属性】
技术研发人员:赵楠贺潇范孟林田超樊鹏飞裴一扬武明虎熊炜刘聪曾春艳
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1