An optimal decoding sequence upstream transmission time optimization method for non-orthogonal access based on deep reinforcement learning includes the following steps: (1) given a decoding sequence pi
【技术实现步骤摘要】
一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法
本专利技术属于通信领域,一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。
技术介绍
适应物联网(InternetofThing,IoT)应用的大规模连接已被视为未来5G蜂窝系统的重要目标。非正交多址接入(Non-orthogonalMultipleAccess,NOMA)使一组智能终端(SmartTerminal,ST)能够同时共享相同的频谱信道进行传输,为实现频谱高效数据传输的目标提供了一种有效的方法。我们考虑无线网络中的上行链路传输,其中智能终端(例如智能手表)使用NOMA技术将其数据发送到接入热点。我们旨在最大限度地减少整体无线资源消耗量,包括上行传输时间和上行传输总能量。
技术实现思路
为了克服现有技术的上行传输时间较长、智能终端能量消耗较大的不足,本专利技术提供一种最小化上行传输时间与所有智能终端总能量消耗的基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,本专利技术针对上行传输时间过大的难点,主要考虑的是利用非正交接入技术来传输数据,研究了一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法。本专利技术解决其技术问题所采用的技术方案是:一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,也就是说,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;在保证发送完成所有智能终端的数 ...
【技术保护点】
1.一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合
【技术特征摘要】
1.一种基于深度强化学习的非正交接入最优解码排序上行传输时间优化方法,其特征在于,所述方法包括以下步骤:(1)在接入热点的覆盖范围下总共有I个智能终端,智能终端用集合表示,也就是说,给定一组智能终端就有I!种解码排序,智能终端使用非正交接入技术同时向接入热点发送数据,其中智能终端i需要发送的数据量用表示;在保证发送完成所有智能终端的数据量以及给定一种解码排序πm,其中m=1,2,…,I!的条件下,最小化上行传输时间与所有智能终端总能量消耗的优化问题描述为如下所示的优化问题(P1-m)问题:0≤tm≤Tmax(1-3)Variables:tm下面将问题中的各个变量做一个说明,如下:πm(i):给定解码排序πm的条件下,智能终端i的解码顺序;α:上行传输时间的权重因子;β:上行传输总能量消耗的权重因子;tm:智能终端发送数据到接入热点的上行传输时间,单位是秒;是关于tm的函数,表示在第m种解码排序πm的情况下,智能终端i在给定上行传输时间tm内完成发送数据量所需要的最小发射功率,单位是瓦特;W:智能终端到接入热点的信道带宽,单位是赫兹;n0:信道背景噪声的频谱功率密度;giA:智能终端i到接入热点的信道功率增益;智能终端i需要发送到接入热点的数据量,单位是兆比特;智能终端i最大上传能量消耗,单位是焦耳;Tmax:智能终端发送数据到接入热点的最大上行传输时间,单位是秒;(P1-m)问题是在给定智能终端上传量的情况下找到最小的整体无线资源消耗量,所述整体无线资源消耗量包括上行传输时间和所有智能终端总能量消耗,观察(P1-m)问题知道它的目标函数只有一个变量t*,m;(2)通过强化学习算法来寻找一个最优的上行传输时间记为t*,m,该强化学习系统由智能体和环境所组成;所有智能终端的上行传输时间tm和每个智能终端的最小发射功率都被编进了系统当前状态xT,智能体在当前状态下采取动作a进入下一个状态xT+1,同时得到环境返回的奖励r(xT,a);在智能体和环境不断交互更新下,上行传输时间tm将不断被优化直到找到整体无线资源消耗的最小值,智能体的更新方式为:Qθ(xT,a)=r(xT,a)+γmaxQθ′(xT+1,a′)(2-1)其中,各参数定义如下:θ:评估网络中的参数;θ′:目标网络中的参数;xT:在时刻T,系统所处状态;Qθ(xT,a):在状态下采取动作a所得到的Q值;r(xT,a):在状态下采取动作a所得到的奖励;γ:奖励衰减比重;(3)所有智能终端的上行传输时间tm和每个智能终端的最小发射功率作为深度强化学习的系统状态xT,动作a则是对系统状态xT的更改,如果改后的系统的整体无线资源消耗比之前的要小,则使当前奖励r(xT,a)设为正值,反之设为负值,同时系统进入下一状态xT+1;强化学习的迭代过程为:步骤3.1:初始化强化学习中的评估网络,目标网络和记忆库,当前系统状态为xT,T初始化为1,迭代次数k初始化为1;步骤3.2:当k小于或等于给定迭代次数K时,随机选择一个概率p;步骤3.3:如果p小于或等于ε;则选择评估网络所输出的动作a(T),否则随机选择一个动作;步骤3.4:采取动作a(T)后,得到奖励r(T)和下一步状态x(T+1),并将这些信息按照格式(x(T),a(T),r(T),x(T+1))保存在记忆库中;步骤3.5:结合目标网络的输出,计算评估网络的目标y=r(xT,a)+γmaxQθ′(xT+1,a′);步骤3.6:最小化误差(y-Q(x(T),a(T);θ))2,同时更新评估网络的参数θ,使得其下次能预...
【专利技术属性】
技术研发人员:吴远,张成,倪克杰,陈相旭,钱丽萍,黄亮,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。