一种利用强化学习优化异构网络资源的方法技术

技术编号：26976844 阅读：18 留言：0更新日期：2021-01-06 00:14

本发明专利技术公开了一种利用强化学习优化异构网络资源的方法，属于通信技术领域，本发明专利技术集成强化学习和凸优化理论，提出根据动作的相关性，即ABS，CRE和小基站休眠策略，对动作空间进行分割，针对强化学习建模过程中系统能效作为奖励函数值数量级过大问题，重新设计奖励函数值先取负数再取倒数，作为新的奖励函数值。本发明专利技术减小强化学习的动作空间，凸优化理论可以保证系统收敛性，同时加快强化学习的收敛速度；通过仿真实验可以证明该方法具有收敛性，更低的复杂度，在几乎达到系统能效理论值的前提下，与传统表格类型的Q‑Learning相比，收敛速度提升60％。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用强化学习优化异构网络资源的方法
本专利技术属于通信
，具体涉及一种利用强化学习优化异构网络资源的方法。
技术介绍
随着接入无线设备的增加，对网络系统的通信容量提出了更高的要求。解决此问题的有效方法之一是组建异构网络，其中引入eICIC可有效克服干扰问题并提升移动设备与基站之间的信干噪比。与此同时对异构网络的性能和能效提出了更加严格的要求。随着异构网络的复杂性不断提高，能量效率的优化面临越来越多的挑战，并且是通信网络研究的热点之一，尤其是对于配有5G基站的异构网络。关键在于如何有效配置异构网络资源，使网络系统能效最大化。从底层方向研究异构网络资源配置问题，主要集中在联合考虑几乎空白子帧(AlmostBlankSubframe，ABS)，小区覆盖扩展(CellRangeExpansion，CRE)和小基站休眠策略的特性等来解决系统能效配置。很多学者最后建立的都是一个非凸的NP-Hard问题。通过松弛(Karush-Kuhn-Tucker，KKT)条件，转化为一个凸问题。其中最有效的方法是联合考虑ABS，CRE和基站休眠策略分成单独考虑ABS，CRE和小基站休眠策略三个子问题，每个子问题都是凸的，根据凸优化理论，通过循环迭代三个子问题的解获得原始非凸NP-Hard问题。该方案的缺点是传统数学方法在实际求解子问题中仍然需要很大计算量，且计算过程相当复杂。限制了这种方案在实际应用的领域。近年来，机器学习技术逐渐被应用到很多领域，例如大数据分析，广告精准投放，图像分类等。现在很多学者将机器学习技术引...

【技术保护点】
1.一种利用强化学习优化异构网络资源的方法，其特征在于：包括如下步骤：/n步骤1，根据需要优化的异构网络能效目标，建立一个马尔科夫决策过程；/n步骤2，根据马尔可夫决策过程设计传统的Q-Learning；/n步骤3，针对Q-Learning中的奖励函数值数量级，重新设计奖励函数值，先取负数再取倒数，将奖励函数值压缩到(-1,0)；/n步骤4：根据动作的相关性即ABS，CRE和小基站休眠策略，将传统的Q-Learning动作空间分割为三个子Q-Learning的动作空间；/n步骤5，循环迭代过程是三个子Q-Learning获得的稳定解进行循环迭代；为了加快收敛速度，每次循环迭代的稳定解，并不一定是三个子Q-Learning的最优解；/n步骤6，将每个子问题求出的解带入到后面两个子问题求解的条件中，通过彼此循环迭代，使三个子问题的解同时达到一个稳定状态，将三个子问题的稳定解进行组合，输出原始问题的最优解A

【技术特征摘要】
1.一种利用强化学习优化异构网络资源的方法，其特征在于：包括如下步骤：
步骤1，根据需要优化的异构网络能效目标，建立一个马尔科夫决策过程；
步骤2，根据马尔可夫决策过程设计传统的Q-Learning；
步骤3，针对Q-Learning中的奖励函数值数量级，重新设计奖励函数值，先取负数再取倒数，将奖励函数值压缩到(-1,0)；
步骤4：根据动作的相关性即ABS，CRE和小基站休眠策略，将传统的Q-Learning动作空间分割为三个子Q-Learning的动作空间；
步骤5，循环迭代过程是三个子Q-Learning获得的稳定解进行循环迭代；为了加快收敛速度，每次循环迭代的稳定解，并不一定是三个子Q-Learning的最优解；
步骤6，将每个子问题求出的解带入到后面两个子问题求解的条件中，通过彼此循环迭代，使三个子问题的解同时达到一个稳定状态，将三个子问题的稳定解进行组合，输出原始问题的最优解AABSo，ACREo和Apicoo。

2.根据权利要求1所述的一种利用强化学习优化异构网络资源的方法，其特征在于：步骤1中，建立一个马尔科夫决策过程(S,A,P,R)，具体为，定义S为状态空间，即异构网络小区内用户位置的集合，定义A为动作空间，即智能体在状态S情况下选取的动作集合，定义P为转移状态，即：<...

【专利技术属性】
技术研发人员：李君，李磊，仲星，朱明浩，李正权，
申请(专利权)人：南京信息工程大学滨江学院，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人