The invention belongs to the field of wireless communication technology, in particular to a joint optimization method of resource allocation and power control based on reinforcement learning in heterogeneous networks. Considering the dynamic and time-varying characteristics of transmission channel and transmission power, and considering the selfishness of users and the interests of operators in heterogeneous networks, a Multi-Agent Reinforcement learning framework is established on the basis of heterogeneous cellular network system model, which combines user satisfaction and operators'pursuit of interests. By using the distributed Q learning method, the optimal joint strategy of resource allocation, user association and power control is obtained, which maximizes the long-term system utility of the whole network.
【技术实现步骤摘要】
一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
本专利技术属于无线通信
,具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。
技术介绍
随着无线设备的迅猛发展和人们对无线业务需求的不断增大,蜂窝网络面临着日益增长的网络容量需求的巨大挑战。通过在宏基站(MacroBaseStation,MBS)中部署多个具有不同发射功率、覆盖范围的家庭基站(FemtoBaseStation,FBS),不仅可以降低通信负载和运营商的成本,而且可使用与MBS相同的无线频率以提高无线频谱的利用率。因此,异构蜂窝网络有望改善下一代蜂窝网络的系统容量和资源利用率。异构蜂窝网络存在着一些性能瓶颈,如用户关联、资源分配和功率控制问题。现有研究大多单独地考虑上述优化问题。同时,由于联合优化问题的非凸性和组合特性,获得全局最优策略非常困难。现有文献提出了博弈论、线性规划、马尔科夫近似等优化方法,但这些优化方法大多需要几乎所有的网络信息,然而,一般来说,这些信息很难获得。因此,本方法提出基于强化学习的异构蜂窝网络资源分配和功率控制联合优化方法。
技术实现思路
为了克服上述现有技术存在的不足,本专利技术的目的在于提出一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。为了达到上述目的,本专利技术所采用的技术方案是:一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:针对传输信道和传输功率等因素的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体 ...
【技术保护点】
1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:针对传输信道和传输功率的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度Qos和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。
【技术特征摘要】
1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:针对传输信道和传输功率的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度Qos和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。2.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL},假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作;对于任意一个UE,定义二元信道分配变量为:其中,在时间t,如果第i个UE使用信道Ck,则否则虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道,因此,对于每一个UE,有此外,定义二元联合基站变量:其中,在时间t,如果第i个用户连接到第l个基站,则否则,考虑到每个UE只能接入一个基站,对于每一个UE,有假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比SINR为:其中,是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率;于是,第i个UE在信道Ck上收到的下行数据率为因此,第i个UE获得的总数据率:同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ωi,即此外,假设第k个信道下行链路的数据传输成本为:其中,λ1是BS传输功率的单位价格,于是,第i个UE总传输成本为:于是,第i个UE的效用定义为:其中,ρ>0为每个用户单位速率的收益;于是,对于任意时间t,UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定,即:其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。3.根据权利要求1所述的异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述多智能体强化学习优化策略实现过程包括:联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中,S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函数,P是状态转移矩阵,首先描述强化学习的基本模型,接着,提出基于多智能体强化学习的联合优...
【专利技术属性】
技术研发人员:赵楠,贺潇,范孟林,田超,樊鹏飞,裴一扬,武明虎,蒋云昊,李利荣,常春,
申请(专利权)人:湖北工业大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。