一种超密集网络中的强化学习的资源分配方法组成比例

技术编号:14483032 阅读:67 留言:0更新日期:2017-01-26 02:11
一种超密集网络中的强化学习的资源分配方法。本发明专利技术实施涉及5G移动通信中超密集网络领域,提供了一种密集部署网络中家庭基站与宏基站、家庭基站与家庭基站、家庭基站与移动用户之间资源分配的方法。本方法通过功率控制实现,将每个毫微微小区看成一个智能体,联合调整家庭基站的发射功率,避免密集部署的家庭基站以最大功率发送对宏基站、相邻基站构成的严重干扰,最大化系统吞吐量。考虑用户的时延QoS,用可对用户的时延提供保障的“有效容量”代替传统的“香农容量”。采用超模博弈模型,这样使整个网络功率分配达到纳什均衡。使用了Q-Learning的强化学习方法,使家庭基站的具备了学习功能,从而能实现最优的功率分配。应用本发明专利技术,在满足用户时延的前提下可有效的提升超密集网络的系统容量。

【技术实现步骤摘要】

本文涉及移动通信领域,特别地,本专利技术是用于第五代(5th-generation)移动通信系统中超密集异构网络(UltraDenseNetwork,UDN)的一种资源分配的方法。
技术介绍
移动网络如今已进入快速普及阶段,与此同时世界各国都在积极地研究5G技术,5G标准也开始崭露头角。率先利用感知无线电技术,由网络自动决定提供的频段,实现多网融合是5G的一个显著特点。我国的5G工作也已取得初步成绩。5G网络的主要目标是用户体验,要从容量、速率、时延三个方面对网络进行重新设计、优化。同时5G网络要容纳大量的终端设备,因此要通过更高的频谱复用效率、更多的频谱资源以及更密集的小区部署来共同满足移动业务流量增长的需求。这使5G网络面临了新的挑战。由于在传统的移动通信系统中,网络部署、运营维护大都依靠人工,需耗费大量人力、物力。因此,才有了自组织网络(Self-OrganizationNetwork,SON)的概念,通过通信网络的自组织能力实现网络的部署、维护及优化。而在5G系统中有许多低功率节点的接入,使得网络结构更复杂,形成超密集异构网络。由于无线资源的稀缺,使得许多运营商希望在高频段充分利用频谱资源,同时在未来的5G系统中采用的是双层网络,存在两种类型的用户分别是宏用户与家庭用户。为了充分利用频谱资源,双层网络共用相同的频段,但同时也引入了同频干扰,而现存在的技术又不能很好地解决5G网络中存在的跨层干扰问题,基于此,本专利技术重点研究将自组织网中的自优化技术应用于超密集网络之中以实现资源的自组织分配。为了实现资源自组织分配,将经典的强化学习Q-Learning算法应用于超密集网络中。Q-Learning算法是基于离散的状态的,而在本专利技术中离散变量是指功率的大小。Q-Learning的选择行为和行为值函数分别选用不同的策略,通过实时地测量信道参数,动态地进行资源自组织分配,进而达到抑制干扰的目的。
技术实现思路
本专利技术主要针对超密集自组织网络中节能资源分配问题,提出了一种基于Q-Learning算法和超模博弈的资源分配方法。该方法优化网络中的能量利用效率,保障QoS,提高系统容量。为了解决上述问题,本专利技术提供了一种效能优化的资源分配方案:步骤1:初始化学习因子,对于每个状态s以及每个动作a,初始化评价函数,传输策略,猜想,正标量。步骤2:初始化家庭基站状态s,发射功率P、信干比等。步骤3:根据传输策略,选定当前过程的动作。步骤4:根据目标接收者的反馈信息检测当前的信干比,通过识别当前传输功率级别和比较当前信干比是否大于门限来确定下一时刻状态。步骤5:如果家庭用户当前的信干噪比大于阈值,通过回报函数计算回报(回报,即效能函数),否则,将回报置零。步骤6:对步骤四中得到的回报值求期望,利用基于猜想的Q更新公式,得到新的Q值,更新评价函数。步骤7:根据步骤五中得到的Q值,根据贪婪策略,更新用户的策略。步骤8:利用猜想更新公式,得到其他家庭基站下一时刻行为的猜想,使用户进入下一个状态。转入步骤二。步骤9:终止此次学习过程,每个家庭基站的无线资源分配完成,准备下一次资源调度。在步骤1中,每个家庭基站只允许一个用户接入,Q值的设定需要预先的估计。在步骤3中,策略,即选择动作的概率,选择概率最大的动作。在步骤4中,信干比的计算公式式中,代表家庭基站到内部用户的信道增益,家庭基站到其他基站用户的信道增益。代表宏用户对家庭基站的干扰。,分别代表该基站与干扰基站的发射功率,指高斯噪声。在步骤5中,每个基站的效能函数是指式中,指家庭基站k的有效容量,在保证一定时延Qos的要求下,无线信道能够达到最大的传输速率。代表Qos时延参数,越大,时延要求越高。代表家庭基站对用户的发射功率。代表通信网络中所消耗的功率。上式显示了子信道呈线性关系,得到每个子信道上的发射功率与总功率呈线性关系结合香农公容量公式(式中,指一帧数据传输时长,B代表通信带宽。得到效用函数的具体表达式步骤6中,Q值的更新公式,式中,是学习因子,具有衰减特性,,是折扣因子。是指下一个时刻的状态。步骤7中,策略的更新公式值是温度正参数,值越大,动作的概率趋近相同。步骤8中,猜想更新公式式中,是指前一时刻的猜想。指下一时刻,在当前状态和采取当前动作时的策略,指前一时刻的策略。从技术方法上来看,本方法以最大化每个家庭基站的能效为目标,综合考虑了超密集自组织网络中的同层干扰、跨层干扰及QoS时延,采用Q-Learning算法不断调整家庭基站的发射功率,最终达到纳什均衡,使每个家庭基站的能效得到优化。既保障了用户的QoS时延,又提升了家庭基站的能效,实现了家庭基站网络的无线资源管理。下面通过附图和具体实施方式对本专利技术的技术方案进行进一步的阐述。附图说明为了更加清晰的阐述本专利技术的实施例和现有的技术方案,下面将本专利技术的技术方案说明附图和现有技术描述中用到的说明附图做简单的介绍,显而易见的,在不付出创造性劳动的前提下,本领域普通技术人员可通过本附图获得其他的附图。图1所示为本专利技术实施例中包含家庭基站与宏基站的系统架构图;图2所示为本专利技术实施例中家庭基站功率分配的流程图。具体实施方式本专利技术的主要思想是,通过对通信环境进行模拟,建立模型,初始化学习因子,猜想,传输策略和评价函数Q,检测当前信道的状态,状态指示参数有信干比、发射功率、所处状态等。根据传输策略选择当前动作,将检测到的信干比与给定的阈值相比较,若大于阈值,得到一个回报,若小于阈值,得到的回报置为零,利用基于猜想的Q更新公式得到新的Q值,并根据Q值通过贪婪策略获得下一时刻的策略以及猜想,更新下一时刻状态,并进入下一个通信状态,重复上述学习过程。以Q值作为性能评价标准来评估功率分配方案,寻找使超密集小区网络中总回报函数最大的功率分配方案。图1所示为同时包括家庭基站与宏基站同频部署的系统架构图,其包含一个宏基站、多个毫微微基站及其用户、宏用户。步骤101:设置学习过程初始时刻t=0。步骤102:初始化学习因子,对于每个状态s以及每个动作a,初始化评价函数,传输策略,猜想,正标量。步骤103:初始化家庭基站状态s,发射功率P、信干比等。步骤104:根据传输策略,选择当前过程的动作。步骤105:根据目标接收者的反馈信息检测当前的信干比,通过识别当前传输功率级别和比较当前信干比是否大于门限来确定下一时刻状态。步骤106:如果当前信干比大于门限,便通过回报函数计算出一个回报,否则,回报置为零。步骤107:对步骤四中将得到的所有回报值求期望,利用基于猜想的Q更新公式,得到新的Q值,更新评价函数。步骤108:由得到的Q值根据贪婪策略的获得新的传输策略。步骤109:利用猜想更新公式,得对其他家庭基站下一时刻行为的猜想。步骤110:进入步骤105所确定的下一个状态,进入下一个时刻t=t+1,并转入步骤102。步骤111:终止此次学习过程,每个家庭基站的无线资源分配完成,准备下一次的资源调度。本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/62/201510409462.html" title="一种超密集网络中的强化学习的资源分配方法原文来自X技术">超密集网络中的强化学习的资源分配方法</a>

【技术保护点】
一种超密集网络中的强化学习的资源分配方法,其特征在于包括以下步骤:步骤1:初始化学习因子,对于每个状态s以及每个动作a,初始化评价函数,传输策略,猜想,正标量;步骤2:初始化家庭基站状态s,发射功率P、信干比等;步骤3:根据传输策略,选定当前过程的动作;步骤4:根据目标接收者的反馈信息检测当前的信干比,通过识别当前传输功率级别和比较当前信干比是否大于门限来确定下一时刻状态;步骤5:如果家庭用户当前的信干噪比大于阈值,通过回报函数计算回报(回报,即效能函数),否则,将回报置零;步骤6: 对步骤四中得到的回报值求期望,利用基于猜想Q的更新公式,得到新的Q值,更新评价函数;步骤7:根据步骤五中得到的Q值,根据贪婪策略,更新用户的策略;步骤8:利用猜想更新公式,得到其他家庭基站下一时刻行为的猜想,使用户进入下一个状态,转入步骤二;步骤9:终止此次学习过程,每个家庭基站的无线资源分配完成,准备下一次资源调度。

【技术特征摘要】
1.一种超密集网络中的强化学习的资源分配方法,其特征在于包括以下步骤:步骤1:初始化学习因子,对于每个状态s以及每个动作a,初始化评价函数,传输策略,猜想,正标量;步骤2:初始化家庭基站状态s,发射功率P、信干比等;步骤3:根据传输策略,选定当前过程的动作;步骤4:根据目标接收者的反馈信息检测当前的信干比,通过识别当前传输功率级别和比较当前信干比是否大于门限来确定下一时刻状态;步骤5:如果家庭用户当前的信干噪比大于阈值,通过回报函数计算回报(回报,即效能函数),否则,将回报置零;步骤6:对步骤四中得到的回报值求期望,利用基于猜想Q的更新公式,得到新的Q值,更新评价函数;步骤7:根据步骤五中得到的Q值,根据贪婪策略,更新用户的策略;步骤8:利用猜想更新公式,得到其他家庭基站下一时刻行为的猜想,使用户进入下一个状态,转入步骤二;步骤9:终止此次学习过程,每个家庭基站的无线资源分配完成,准备下一次资源调度。2.根据权利要求1所述的超密集网络的资源分配方法,其特征在于:所述步骤1中,采用超模博弈模型,将每一个家庭基站看成具有平等竞争关系的智能体,使其到达纳什均衡求得最优目标。3...

【专利技术属性】
技术研发人员:张海君王文韬孙梦颖郝匀琴周平阳欣豪
申请(专利权)人:北京化工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1