一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法技术

技术编号:19439166 阅读:35 留言:0更新日期:2018-11-14 13:56
一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法,包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,提出了一种满足移动用户的服务质量同时,在移动用户的下载量

【技术实现步骤摘要】
一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法
本专利技术属于通信领域,一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法。
技术介绍
移动互联网业务的快速发展,对蜂窝无线接入网造成了巨大的流量压力。由于有限的无线资源,利用非正交接入术使移动用户同时共用同一信道为无线接入提供一种有效的方法,实现在未来的5G网中超高吞吐量和大规模连接的目标。
技术实现思路
为了克服现有技术的下行传输时间较长、基站总能量消耗较大的不足,本专利技术提供一种最小化下行传输时间与基站总能量消耗的基于深度确定性策略梯度的非正交接入下行传输时间优化方法,本专利技术针对下行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法。本专利技术解决其技术问题所采用的技术方案是:一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法,包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM(Downloading-DurationResourceConsumptionMinimization)问题,DDRCM指的是下行资源消耗最小化:DDRCM:0≤t≤Tmax(1-3)Variables:t下面将问题中的各个变量做一个说明,如下:α:下行传输时间的权重因子;β:下行传输总能量消耗的权重因子;t:基站发送数据到移动用户的下行传输时间,单位是秒;是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;W:基站到移动用户的信道带宽,单位是赫兹;n0:信道背景噪声的频谱功率密度;gBi:基站到移动用户i的信道功率增益;基站需要发送到移动用户i的数据量,单位是兆比特;基站最大下载能量消耗,单位是焦耳;Tmax:基站发送数据到移动用户的最大下行传输时间,单位是秒;(2)DDRCM问题表示如下:DDRCM:s.t.constraint(1-1)constraint(1-2)Variable:0≤t≤TmaxDDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗(下行传输时间和基站总能量消耗),观察DDRCM问题知道它的目标函数只有一个变量t;(3)通过深度确定性策略梯度方法来寻找一个最优的下行传输时间记为t*,该深度确定性策略梯度方法由执行单元,评分单元和环境所组成;基站的下行传输时间t和基站的最小发射功率都被编进了执行单元所需的状态xT,执行单元在当前状态下采取动作a对上行传输时间t进行更改并进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a),评分单元结合状态xT,动作a以及环境返回的奖励r(xT,a)给执行单元打分,即表明执行单元在状态xT下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xT,a)来调节;在执行单元,评分单元和环境不断交互更新下,t将不断被优化直到找到下行资源消耗(即下行传输时间与基站总能量消耗)的最小值,评分单元的更新方式为:S(xT,a)=r(xT,a)+γS′(xT+1,a′)(3)其中,各参数定义如下:xT:在时刻T,系统所处状态;xT+1:在时刻T+1,系统所处状态;a:在当前状态执行单元所采取的动作;a′:在下一状态执行单元所采取的动作;S(xT,a):执行单元中的评估网络在状态xT下采取动作a所得到的分值;S′(xT+1,a′):执行单元中的目标网络在状态xT+1下采取动作a′所得到的分值;r(xT,a):在状态xT下采取动作a所得到的奖励;γ:奖励衰减比重;(4)基站的下行传输时间t和基站的最小发射功率作为深度确定性策略梯度方法的状态xT,动作a则是对状态xT的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xT,a)设为负值,反之设为正值,同时系统进入下一状态xT+1。进一步,所述步骤(4)中,深度确定性策略梯度方法的迭代过程为:步骤4.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;步骤4.2:当k小于或等于给定迭代次数K时,在状态xT下,执行单元预测出一个动作a;步骤4.3:动作a对状态xT进行更改,使其变成下一状态xT+1并得到环境所反馈的奖励r(xT,a);步骤4.4:按照格式(xT,a,r(xT,a),xT+1)把历史经验保存在记忆库中;步骤4.5:评分单元接收动作a,状态xt和奖励r(xT,a),给执行单元打出分数S(xT,a);步骤4.6:执行单元通过更新自身参数不断去最大化分数S(xT,a),尽可能地让自己在下次能做出高分动作;步骤4.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤4.2;步骤4.8:当k大于给定迭代次数K时,学习过程结束,得到最优的下行传输时间t*,使得有最优的下行资源消耗(包括下行传输时间与基站总能量消耗)。本专利技术的技术构思为:首先,考虑在蜂窝无线网络中,基站通过非正交接入技术传输数据实现最小化下行传输时间与基站总能量消耗来获得一定的经济效益和服务质量。在此处,考虑的前提是基站的下载能量消耗及下行传输时间的限制。在保证基站发送完成所有移动用户数据量的条件下,实现最小化下行资源消耗。本专利技术的有益效果主要表现在:1、对于下行整体而言,利用非正交接入技术大大提高了系统传输效率;2、对于基站而言,通过非正交接入技术获得更优质的无线网络体验质量;3、通过深度确定性策略梯度方法得到最优的下行传输时间t*,使得有最优的下行资源消耗(包括下行传输时间与基站总能量消耗)。附图说明图1是无线网络中基站和多个移动用户的下行场景示意图。图2是找到最优的下行传输时间t*的方法流程图。具体实施方式下面结合附图对于本专利技术作进一步详细描述。参照图1和图2,一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法,实行该方法能在同时保证基站发送完成所有移动用户数据量的条件下,使得下行传输时间与基站总能量消耗最小化,提高整个系统的无线网络体验质量。本专利技术可以应用于无线网络,如图1所示场景中。针对该目标设计对问题的优化方法主要包括如下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM(Downloading-DurationResourceConsumptionMinimization)问题,DDRCM指的是下行资源消耗最小化:DDRCM:0≤t≤Tmax(1-3)Variables:t下面具体将问题中的各个变量做一个说明,如下:α:下行传输时间的权重因子;β:本文档来自技高网...

【技术保护点】
1.一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合

【技术特征摘要】
1.一种基于深度确定性策略梯度的非正交接入下行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在基站的覆盖范围下总共有I个移动用户,移动用户用集合表示,基站使用非正交接入技术同时向移动用户发送数据,其中移动用户i需要接收的数据量用表示;在保证基站发送完成所有移动用户数据量的条件下,最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题,DDRCM指的是下行资源消耗最小化:DDRCM:0≤t≤Tmax(1-3)Variables:t下面将问题中的各个变量做一个说明,如下:α:下行传输时间的权重因子;β:下行传输总能量消耗的权重因子;t:基站发送数据到移动用户的下行传输时间,单位是秒;是关于t的函数,表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率,单位是瓦特;W:基站到移动用户的信道带宽,单位是赫兹;n0:信道背景噪声的频谱功率密度;gBi:基站到移动用户i的信道功率增益;基站需要发送到移动用户i的数据量,单位是兆比特;基站最大下载能量消耗,单位是焦耳;Tmax:基站发送数据到移动用户的最大下行传输时间,单位是秒;(2)DDRCM问题表示如下:DDRCM:s.t.constraint(1-1)constraint(1-2)Variable:0≤t≤TmaxDDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗,观察DDRCM问题知道它的目标函数只有一个变量t;(3)通过深度确定性策略梯度方法来寻找一个最优的下行传输时间记为t*,该深度确定性策略梯度方法由执行单元,评分单元和环境所组成;基站的下行传输时间t和基站的最小发射功率都被编进了执行单元所需的状态xT,执行单元在当前状态下采取动作a对上行传输时间t进行更改并进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a),评分单元结合状态xT,动作a以及环境返回的奖励r(xT,a)给执行单元打分,即表明执行单元在状态xT下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xT...

【专利技术属性】
技术研发人员:吴远倪克杰张成汪筱鼎钱丽萍黄亮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1