一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法技术

技术编号:19705008 阅读:29 留言:0更新日期:2018-12-08 15:03
一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:(1)在给定解码排序π

【技术实现步骤摘要】
一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法
本专利技术属于通信领域,一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法。
技术介绍
适应物联网(InternetofThing,IoT)应用的大规模连接已被视为未来5G蜂窝系统的重要目标。非正交多址接入(Non-orthogonalMultipleAccess,NOMA)使一组智能终端(SmartTerminal,ST)能够同时共享相同的频谱信道进行传输,为实现频谱高效数据传输的目标提供了一种有效的方法。我们考虑无线网络中的上行链路传输,其中智能终端(例如智能手表)使用NOMA技术将其数据发送到接入热点。我们旨在最大限度地减少整体无线资源消耗量,包括上行传输时间和上行传输总能量。
技术实现思路
为了克服现有技术的上行传输时间较长、智能终端能量消耗较大的不足,本专利技术提供一种最小化上行传输时间与所有智能终端总能量消耗的基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法,本专利技术针对上行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法。本专利技术解决其技术问题所采用的技术方案是:一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,也就是说,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:0≤tm≤Tmax(1-3)Variables:tm下面将问题中的各个变量做一个说明,如下:πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;α:上行传输时间的权重因子;β:上行传输总能量消耗的权重因子;tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量所需要的最小发射功率,单位是瓦特;W:智能终端到接入热点的信道带宽,单位是赫兹;n0:信道背景噪声的频谱功率密度;giA:智能终端i到接入热点的信道功率增益;智能终端i需要发送到接入热点的数据量,单位是兆比特;智能终端i最大上传能量消耗,单位是焦耳;Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;(P1-m)问题是在给定智能终端上传量的情况下找到最小的整体无线资源消耗量(包括上行传输时间和所有智能终端总能量消耗),观察(P1-m)问题知道它的目标函数只有一个变量t*,m;(2)通过深度确定性策略梯度方法来寻找一个最优的上行传输时间记为t*,m,该深度确定性策略梯度方法由执行单元,评分单元和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了执行单元所需的状态xT,执行单元在当前状态下采取动作a对上行传输时间tm进行更改并进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a),评分单元结合状态xT,动作a以及环境返回的奖励r(xT,a)给执行单元打分,即表明执行单元在状态xT下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xT,a)来调节;在执行单元,评分单元和环境不断交互更新下,tm将不断被优化直到找到整体无线资源消耗的最小值,评分单元的更新方式为:S(xT,a)=r(xT,a)+γS′(xT+1,a′)(2-1)其中,各参数定义如下:xT:在时刻T,系统所处状态;xT+1:在时刻T+1,系统所处状态;a:在当前状态执行单元所采取的动作;a′:在下一状态执行单元所采取的动作;S(xT,a):执行单元中的评估网络在状态xT下采取动作a所得到的分值;S′(xT+1,a′):执行单元中的目标网络在状态xT+1下采取动作a′所得到的分值;r(xT,a):在状态xT下采取动作a所得到的奖励;γ:奖励衰减比重;(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度确定性策略梯度方法的状态xT,动作a则是对状态xT的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xT,a)设为负值,反之设为正值,同时系统进入下一状态xT+1;深度确定性策略梯度方法的迭代过程为:步骤3.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;步骤3.2:当k小于或等于给定迭代次数K时,在状态xT下,执行单元预测出一个动作a;步骤3.3:动作a对状态xT进行更改,使其变成下一状态xT+1并得到环境所反馈的奖励r(xT,a);步骤3.4:按照格式(xT,a,r(xT,a),xT+1)把历史经验保存在记忆库中;步骤3.5:评分单元接收动作a,状态xt和奖励r(xT,a),给执行单元打出分数S(xT,a);步骤3.6:执行单元通过更新自身参数不断去最大化分数S(xT,a),尽可能地让自己在下次能做出高分动作;步骤3.7:评分单元抽取记忆库中的历史经验,不断学习,更新参数使得自己所打的分尽可能准确,同时k=k+1,回到步骤3.2;步骤3.8:当k大于给定迭代次数K时,学习过程结束,得到最优的上行传输时间t*,m,和最优的整体无线资源消耗(4)得到给定一种解码排序πm的条件下的最优上行传输时间后,接着提出算法OptOrder-Algorithm来找到最优的解码排序,也即找到全局最优上行传输时间,使得有全局最小整体无线资源消耗;算法OptOrder-Algorithm的求解过程是:设定智能终端集合为Iall={g1A,g2A,…,gIA},|Iall|表示集合Iall的基,初始化当前可选集合Icur={g1A,g2A,…,gIA},|Icur|表示集合Icur的基,当前最优解码排序当前最优解CBV是一个足够大的数,当前测试集合首先,第一次迭代过程,从Icur中依次选择一个元素插进Icur,test中,通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;接着第二次迭代过程中,从当前Icur中依次选择一个元素插进Icur,test中(此时Icur,test只有一个元素,即插在该元素左边或右边),通过调用算法P2-Algorithm找出当前最优的Icur,test,即使得有当前最小整体无线资源消耗的Icur,test,更新Icur,即把Iall去掉Icur,test之后的集合给Icur,同时更新CBS,即把当前最优的Icur,test给CBS;每次从当前Icur中依次选择一个元素插进Icur,test时,不能本文档来自技高网...

【技术保护点】
1.一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合

【技术特征摘要】
1.一种基于深度确定性策略梯度的非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,也就是说,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,...,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:0≤tm≤Tmax(1-3)Variables:tmm下面将问题中的各个变量做一个说明,如下:πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;α:上行传输时间的权重因子;β:上行传输总能量消耗的权重因子;tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量所需要的最小发射功率,单位是瓦特;W:智能终端到接入热点的信道带宽,单位是赫兹;n0:信道背景噪声的频谱功率密度;giA:智能终端i到接入热点的信道功率增益;智能终端i需要发送到接入热点的数据量,单位是兆比特;智能终端i最大上传能量消耗,单位是焦耳;Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;(P1-m)问题是在给定智能终端上传量的情况下找到最小的整体无线资源消耗量(包括上行传输时间和所有智能终端总能量消耗),观察(P1-m)问题知道它的目标函数只有一个变量t*,m;(2)通过深度确定性策略梯度方法来寻找一个最优的上行传输时间记为t*,m,该深度确定性策略梯度方法由执行单元,评分单元和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了执行单元所需的状态xT,执行单元在当前状态下采取动作a对上行传输时间tm进行更改并进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a),评分单元结合状态xT,动作a以及环境返回的奖励r(xT,a)给执行单元打分,即表明执行单元在状态xT下采取动作a是好是坏,执行单元的目标就是让评分单元所打的分越高越好,而评分单元的目标是让自己每次打出的分都接近真实,通过奖励r(xT,a)来调节;在执行单元,评分单元和环境不断交互更新下,tm将不断被优化直到找到整体无线资源消耗的最小值,评分单元的更新方式为:S(xT,a)=r(xT,a)+γS′(xT+1,a′)(2-1)其中,各参数定义如下:xT:在时刻T,系统所处状态;xT+1:在时刻T+1,系统所处状态;a:在当前状态执行单元所采取的动作;a′:在下一状态执行单元所采取的动作;S(xT,a):执行单元中的评估网络在状态xT下采取动作a所得到的分值;S′(xT+1,a′):执行单元中的目标网络在状态xT+1下采取动作a′所得到的分值;r(xT,a):在状态xT下采取动作a所得到的奖励;γ:奖励衰减比重;(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度确定性策略梯度方法的状态xT,动作a则是对状态xT的更改,更改后系统的总损耗会与一个设定的标准值进行比较,如果比这个标准值大则使当前奖励r(xT,a)设为负值,反之设为正值,同时系统进入下一状态xT+1;深度确定性策略梯度方法的迭代过程为:步骤3.1:初始化深度确定性策略梯度方法中的执行单元,评分单元和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;步骤3.2:当k小于或等于给定迭代次数K时,在状态xT下,执行单元预测出一个动作a;步骤3.3:动作a对状态xT进行更改,使其变成下一状态xT+1并得到环境...

【专利技术属性】
技术研发人员:吴远张成倪克杰石佳俊钱丽萍黄亮
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1