一种异构网络中基于强化学习的资源分配和功率控制联合优化方法技术

技术编号:18916333 阅读:22 留言:0更新日期:2018-09-12 03:53
本发明专利技术属于无线通信技术领域,具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。针对传输信道和传输功率等因素的动态和时变特性,在考虑异构网络中用户的自私性和运营商利益的前提下,在建立异构蜂窝网络系统模型基础上,通过建立多智能体强化学习框架,结合用户满意度和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络的长期系统效用的最大化。

A joint optimization method for resource allocation and power control based on reinforcement learning in heterogeneous networks

The invention belongs to the field of wireless communication technology, in particular to a joint optimization method of resource allocation and power control based on reinforcement learning in heterogeneous networks. Considering the dynamic and time-varying characteristics of transmission channel and transmission power, and considering the selfishness of users and the interests of operators in heterogeneous networks, a Multi-Agent Reinforcement learning framework is established on the basis of heterogeneous cellular network system model, which combines user satisfaction and operators'pursuit of interests. By using the distributed Q learning method, the optimal joint strategy of resource allocation, user association and power control is obtained, which maximizes the long-term system utility of the whole network.

【技术实现步骤摘要】
一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
本专利技术属于无线通信
,具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。
技术介绍
随着无线设备的迅猛发展和人们对无线业务需求的不断增大,蜂窝网络面临着日益增长的网络容量需求的巨大挑战。通过在宏基站(MacroBaseStation,MBS)中部署多个具有不同发射功率、覆盖范围的家庭基站(FemtoBaseStation,FBS),不仅可以降低通信负载和运营商的成本,而且可使用与MBS相同的无线频率以提高无线频谱的利用率。因此,异构蜂窝网络有望改善下一代蜂窝网络的系统容量和资源利用率。异构蜂窝网络存在着一些性能瓶颈,如用户关联、资源分配和功率控制问题。现有研究大多单独地考虑上述优化问题。同时,由于联合优化问题的非凸性和组合特性,获得全局最优策略非常困难。现有文献提出了博弈论、线性规划、马尔科夫近似等优化方法,但这些优化方法大多需要几乎所有的网络信息,然而,一般来说,这些信息很难获得。因此,本方法提出基于强化学习的异构蜂窝网络资源分配和功率控制联合优化方法。
技术实现思路
为了克服上述现有技术存在的不足,本专利技术的目的在于提出一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。为了达到上述目的,本专利技术所采用的技术方案是:一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:针对传输信道和传输功率等因素的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度(Qualityofservice,Qos)和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。进一步地,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL},假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作;对于任意一个UE,定义二元信道分配变量为:其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道。因此,对于每一个UE,有此外,定义二元联合基站变量:其中,在时间t,如果第i个用户连接到第l个基站,则bil(t)=1,否则,考虑到每个UE只能接入一个基站,对于每一个UE,有假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比(SignaltoInterferencePlusNoiseRatio,SINR)为:其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率。于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ωi,即此外,假设第k个信道下行链路的数据传输成本为:其中,λ1是BS传输功率的单位价格。于是,第i个UE总传输成本为:于是,第i个UE的效用定义为:其中,ρ>0为每个用户单位速率的收益。于是,对于任意时间t,UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定,即:其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。进一步地,所述多智能体强化学习优化策略实现过程包括:联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中,S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函数,P是状态转移矩阵。首先描述强化学习的基本模型,接着,提出基于多智能体强化学习的联合优化算法。定义状态空间,行动空间和奖励函数有关的基本强化学习元素。在这种异构蜂窝网络中,每个UE都扮演着一个智能体的角色。因此,我们提出分布式多智能体强化学习优化策略。状态空间:目标状态s(t)由N个UE的服务质量综合确定。s(t)={s1(t),s2(t),...,sN(t)},当用户对服务质量满意时就等于1,不满意就是0。所有可能状态的数量是2N,随着N的增加,这个数目可能非常大。动作空间:每个UE选择附近的BS、传输信道和功率水平。考虑到实际应用场景,发射功率一般为离散值。于是,考虑M个功率水平,即P1,...,PM。功率水平选择变量定义为:其中,如果BS选择传输功率pm,则否则,考虑到BS传输时只能选择一种功率水平,于是有:于是,每一个UE的动作空间中四个变量:这样以来,每一UE的状态数量是2(L+1+K)M。随着L,K和M的增加,状态数量会非常大。奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:其中,ψi是动作选择成本。当UE的SINR大于最低Qos需求,则UE的效用就是其奖励。否则,UE的奖励就是其动作的选择成本。这一奖励函数保证了异构蜂窝网络最小的Qos需求和每个UE最大的效用。进一步地,所述分布式Q学习方法,所采取的实现过程包括:单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益。然而,在多智能体强化学习中,智能体的训练还要考虑稳定性和适应性。考虑到其简单性和分布性特点,采用分布式多智能体强化学习。每个UE通过消息传递来获得全局状态空间,并基于全局状态空间以获得最优策略。每个UE不需要发送自身的最优策略,而是一个比特位(0或1)来发送其当前状态给其他UE。每个UE需要找到在每个状态下的最优策略,以获得累计收益的最大化。第i个UE的累计收益定义为:其中,E表示学习期望,它与时间t无关。由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关。于是,值函数可简化为:其中,ui(s,ai)是Ri(s,ai)的数学期望,Ps,s'(ai)表示从状态s到状态s'的转移概率。于是,基于贝尔曼准则,最优策略为:于是,得到最优Q值函数基于上述最优Q值函数最优策略可得:一般来说,很难获得准确的转移概率Ps,s'(ai)。然而,基于可用信息(s,ai,s',E[ui(s,πi(s))]),利用Q学习,可以以递归方式获得最优策略。Q学习的迭代公式为:其中,δ是学习速率,它决定了Qi(s,ai)的更新速度。此外,在动作选择的利用与探索权衡策略中,选择ε-greedy策略,以概率1-ε选择最佳动作以概率ε随机选择动作。与现有技术相比,本专利技术的有益效果是:本专利技术针对用户关联,资源分配和下行链路传输功率的联合问题,提出了异构网络下基于强化学习联合优化问题的方法,引入了基于强化学习的分布式框架,通过用户联合基站,基站分配信道和控制发射功率,保证了最大化下行链路网络效用和用户服务质量,从而提高异构网络传输效率和网络容量。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。具体过程如下:联本文档来自技高网...

【技术保护点】
1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:针对传输信道和传输功率的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度Qos和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。

【技术特征摘要】
1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:针对传输信道和传输功率的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度Qos和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。2.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL},假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作;对于任意一个UE,定义二元信道分配变量为:其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道,因此,对于每一个UE,有此外,定义二元联合基站变量:其中,在时间t,如果第i个用户连接到第l个基站,则否则,考虑到每个UE只能接入一个基站,对于每一个UE,有假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比SINR为:其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率;于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ωi,即此外,假设第k个信道下行链路的数据传输成本为:其中,λ1是BS传输功率的单位价格,于是,第i个UE总传输成本为:于是,第i个UE的效用定义为:其中,ρ>0为每个用户单位速率的收益;于是,对于任意时间t,UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定,即:其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。3.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述多智能体强化学习优化策略实现过程包括:联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中,S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函数,P是状态转移矩阵,首先描述强化学习的基本模型,接着,提出基于多智能体强化学习的联合优...

【专利技术属性】
技术研发人员:赵楠贺潇范孟林田超樊鹏飞裴一扬武明虎蒋云昊李利荣常春
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1