一种利用强化学习优化异构网络资源的方法技术

技术编号:26976844 阅读:18 留言:0更新日期:2021-01-06 00:14
本发明专利技术公开了一种利用强化学习优化异构网络资源的方法,属于通信技术领域,本发明专利技术集成强化学习和凸优化理论,提出根据动作的相关性,即ABS,CRE和小基站休眠策略,对动作空间进行分割,针对强化学习建模过程中系统能效作为奖励函数值数量级过大问题,重新设计奖励函数值先取负数再取倒数,作为新的奖励函数值。本发明专利技术减小强化学习的动作空间,凸优化理论可以保证系统收敛性,同时加快强化学习的收敛速度;通过仿真实验可以证明该方法具有收敛性,更低的复杂度,在几乎达到系统能效理论值的前提下,与传统表格类型的Q‑Learning相比,收敛速度提升60%。

【技术实现步骤摘要】
一种利用强化学习优化异构网络资源的方法
本专利技术属于通信
,具体涉及一种利用强化学习优化异构网络资源的方法。
技术介绍
随着接入无线设备的增加,对网络系统的通信容量提出了更高的要求。解决此问题的有效方法之一是组建异构网络,其中引入eICIC可有效克服干扰问题并提升移动设备与基站之间的信干噪比。与此同时对异构网络的性能和能效提出了更加严格的要求。随着异构网络的复杂性不断提高,能量效率的优化面临越来越多的挑战,并且是通信网络研究的热点之一,尤其是对于配有5G基站的异构网络。关键在于如何有效配置异构网络资源,使网络系统能效最大化。从底层方向研究异构网络资源配置问题,主要集中在联合考虑几乎空白子帧(AlmostBlankSubframe,ABS),小区覆盖扩展(CellRangeExpansion,CRE)和小基站休眠策略的特性等来解决系统能效配置。很多学者最后建立的都是一个非凸的NP-Hard问题。通过松弛(Karush-Kuhn-Tucker,KKT)条件,转化为一个凸问题。其中最有效的方法是联合考虑ABS,CRE和基站休眠策略分成单独考虑ABS,CRE和小基站休眠策略三个子问题,每个子问题都是凸的,根据凸优化理论,通过循环迭代三个子问题的解获得原始非凸NP-Hard问题。该方案的缺点是传统数学方法在实际求解子问题中仍然需要很大计算量,且计算过程相当复杂。限制了这种方案在实际应用的领域。近年来,机器学习技术逐渐被应用到很多领域,例如大数据分析,广告精准投放,图像分类等。现在很多学者将机器学习技术引入到通信系统做资源优化研究,主要是以深度学习和强化学习为主。在深度神经网络中,深度学习的优点在于具有很好的拟合性能。用深度学习方法可以很好逼近异构网络资源和系统性能关系,从而实现异构网络性能最大化。缺点在于神经网络会产生过拟合和学习速度过大问题。而强化学习优点在于既可以像深度学习一样采用无模型方案也可以采用有模型方案解决实际问题。它使具体问题的解决变地更加高效,及时。有学者将异构网络中基站和基站,基站和用户之间的关系映射到图论领域,然后结合强化学习和图论理论将初始Q-Learning问题分解为若干Q-Learning子问题来解决网络资源分配从而优化系统性能。
技术实现思路
专利技术目的:本专利技术的目的在于针对强化学习直接运用到异构网络资源配置面临动作空间过大的不足,提供一种利用强化学习优化异构网络资源的方法,在几乎达到系统能效理论值的前提下,与传统表格类型的Q-Learning相比,收敛速度提升60%。技术方案:为实现上述目的,本专利技术采用如下技术方案:一种利用强化学习优化异构网络资源的方法,包括如下步骤:步骤1,根据需要优化的异构网络能效目标,建立一个马尔科夫决策过程;步骤2,根据马尔可夫决策过程设计传统的Q-Learning;步骤3,针对Q-Learning中的奖励函数值数量级过大问题,重新设计奖励函数值,先取负数再取倒数,将奖励函数值压缩到(-1,0);步骤4:根据动作的相关性即ABS,CRE和小基站休眠策略,将传统的Q-Learning动作空间分割为三个子Q-Learning的动作空间;步骤5,循环迭代过程是三个子Q-Learning获得的稳定解进行循环迭代;为了加快收敛速度,每次循环迭代的稳定解,并不一定是三个子Q-Learning的最优解;步骤6,将每个子问题求出的解带入到后面两个子问题求解的条件中,通过彼此循环迭代,使三个子问题的解同时达到一个稳定状态,将三个子问题的稳定解进行组合,输出原始问题的最优解AABSo,ACREo和Apicoo。进一步地,步骤1中,建立一个马尔科夫决策过程(S,A,P,R),具体为,定义S为状态空间,即异构网络小区内用户位置的集合;定义A为动作空间,即智能体在状态S情况下选取的动作集合,定义P为转移状态,即:P(st+1=s'|st=s,at=a);定义R为奖励函数。进一步地,步骤3中,所述的重新设计奖励函数值,先取负数再取倒数,将奖励函数值压缩到(-1,0),即其中E系统的能效函数,同时保证奖励函数与系统能效的一致性。进一步地,步骤4中,所述的将传统的Q-Learning动作空间分割为三个子Q-Learning的动作空间,即A分解为和依次是优化ABS,CRE和小基站休眠策略的动作空间集合,定义为ABS的配置集合,定义为CRE的配置集合,定义为小基站休眠策略集合;分别求ABS,CRE和小基站休眠策略解:进一步地,步骤5中,所述的循环迭代即RABS~P(R|S,AABS)≤RABSo~P(R|S,AABSo),RCRE~P(R|S,ACRE)≤RCREo~P(R|S,ACREo),RCRE~P(R|S,ACRE)≤RPicoo~P(R|S,APicoo),其中AABSo,ACREo和Apicoo是三个子Q-Learning的最优动作。专利技术原理:该方法根据配置资源的相关性,将初始问题分解成若干子问题,通过循环迭代子问题的解来获得初始问题的解。解决若干子问题的方式采用Q-Learning,而不是传统的数学方法。将初始问题映射到强化学习领域,根据动作的相关性分割动作空间,根据分割动作的准则,原始Q-Learning分解为若干子Q-Learning,通过循环迭代子Q-Learning的最优策略获得初始Q-Learning的最优策略。将系统能效作为奖励函数进行重新设计,采用的方式是先对系统能效取负值再取倒数,可以将强化学习的奖励函数值压缩到(-1,0),同时保证新的奖励函数与系统能效值一致。有益效果:与现有技术相比,针对强化学习直接运用到异构网络资源配置面临动作空间过大的不足,本专利技术的一种利用强化学习优化异构网络资源的方法,集成强化学习和凸优化理论,提出根据动作的相关性,即ABS,CRE和小基站休眠策略,对动作空间进行分割,针对强化学习建模过程中系统能效作为奖励函数值数量级过大问题,重新设计奖励函数值先取负数再取倒数,作为新的奖励函数值。本专利技术减小强化学习的动作空间,凸优化理论可以保证系统收敛性,同时加快强化学习的收敛速度;通过仿真实验可以证明该方法具有收敛性,更低的复杂度,在几乎达到系统能效理论值的前提下,与传统表格类型的Q-Learning相比,收敛速度提升60%。附图说明图1为本专利技术方法构造过程流程图;图2为本专利技术子Q-Learning循环迭代操作示意图;图3为相同参数设置下,传统Q-Learning方法的收敛速度图;图4为相同参数设置下,本专利技术方法的收敛速度图;图5为本专利技术方法系统能效图。具体实施方式以下结合具体实施方式对本专利技术做进一步的说明。如图1-5所示,一种利用强化学习优化异构网络资源的方法,包括如下步骤:步骤1:根据需要优化的异构网络能效目标,建立一个马尔科夫决策过程(MarkovDecisionProcess,MDP)(S,A,P本文档来自技高网
...

【技术保护点】
1.一种利用强化学习优化异构网络资源的方法,其特征在于:包括如下步骤:/n步骤1,根据需要优化的异构网络能效目标,建立一个马尔科夫决策过程;/n步骤2,根据马尔可夫决策过程设计传统的Q-Learning;/n步骤3,针对Q-Learning中的奖励函数值数量级,重新设计奖励函数值,先取负数再取倒数,将奖励函数值压缩到(-1,0);/n步骤4:根据动作的相关性即ABS,CRE和小基站休眠策略,将传统的Q-Learning动作空间分割为三个子Q-Learning的动作空间;/n步骤5,循环迭代过程是三个子Q-Learning获得的稳定解进行循环迭代;为了加快收敛速度,每次循环迭代的稳定解,并不一定是三个子Q-Learning的最优解;/n步骤6,将每个子问题求出的解带入到后面两个子问题求解的条件中,通过彼此循环迭代,使三个子问题的解同时达到一个稳定状态,将三个子问题的稳定解进行组合,输出原始问题的最优解A

【技术特征摘要】
1.一种利用强化学习优化异构网络资源的方法,其特征在于:包括如下步骤:
步骤1,根据需要优化的异构网络能效目标,建立一个马尔科夫决策过程;
步骤2,根据马尔可夫决策过程设计传统的Q-Learning;
步骤3,针对Q-Learning中的奖励函数值数量级,重新设计奖励函数值,先取负数再取倒数,将奖励函数值压缩到(-1,0);
步骤4:根据动作的相关性即ABS,CRE和小基站休眠策略,将传统的Q-Learning动作空间分割为三个子Q-Learning的动作空间;
步骤5,循环迭代过程是三个子Q-Learning获得的稳定解进行循环迭代;为了加快收敛速度,每次循环迭代的稳定解,并不一定是三个子Q-Learning的最优解;
步骤6,将每个子问题求出的解带入到后面两个子问题求解的条件中,通过彼此循环迭代,使三个子问题的解同时达到一个稳定状态,将三个子问题的稳定解进行组合,输出原始问题的最优解AABSo,ACREo和Apicoo。


2.根据权利要求1所述的一种利用强化学习优化异构网络资源的方法,其特征在于:步骤1中,建立一个马尔科夫决策过程(S,A,P,R),具体为,定义S为状态空间,即异构网络小区内用户位置的集合,定义A为动作空间,即智能体在状态S情况下选取的动作集合,定义P为转移状态,即:<...

【专利技术属性】
技术研发人员:李君李磊仲星朱明浩李正权
申请(专利权)人:南京信息工程大学滨江学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1