一种基于深度强化学习的非正交接入下行传输时间优化方法技术

技术编号：19187929 阅读：41 留言：0更新日期：2018-10-17 02:38

一种基于深度强化学习的非正交接入下行传输时间优化方法，包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，提出了一种满足移动用户的服务质量同时，在移动用户的下载量

An optimization method for downlink transmission time of non orthogonal access based on deep reinforcement learning

A method of downlink transmission time optimization for non-orthogonal access based on depth reinforcement learning is proposed, which consists of the following steps: (1) There are a total of I mobile users under the coverage of the base station.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的非正交接入下行传输时间优化方法
本专利技术属于通信领域，一种基于深度强化学习的非正交接入下行传输时间优化方法。
技术介绍
移动互联网业务的快速发展，对蜂窝无线接入网造成了巨大的流量压力。由于有限的无线资源，利用非正交接入技术使移动用户同时共用同一信道为无线接入提供一种有效的方法，实现在未来的5G网中超高吞吐量和大规模连接的目标。我们旨在最小化下行传输时间与基站总能量消耗，在基站发送数据到对应移动用户的传输过程中。我们提出了一种基于深度强化学习的非正交接入下行传输时间优化方法。
技术实现思路
为了克服现有技术的下行传输时间较长、基站总能量消耗较大的不足，本专利技术提供一种最小化下行传输时间与基站总能量消耗的基于深度强化学习的非正交接入下行传输时间优化方法，本专利技术针对下行传输时间过大的难点，主要考虑的是利用非正交接入技术来传输数据，研究了一种基于深度强化学习的非正交接入下行传输时间优化方法。本专利技术解决其技术问题所采用的技术方案是：一种基于深度强化学习的非正交接入下行传输时间优化方法，包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合表示，基站使用非正交接入技术同时向移动用户发送数据，其中移动用户i需要接收的数据量用表示；在保证基站发送完成所有移动用户数据量的条件下，最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM(Downloading-DurationResourceConsumptionMinimization)问题，DDRCM指的是下行资源消耗最小化：0≤t≤Tmax(1-3)Va...

【技术保护点】
1.一种基于深度强化学习的非正交接入下行传输时间优化方法，其特征在于，所述方法包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合

【技术特征摘要】
1.一种基于深度强化学习的非正交接入下行传输时间优化方法，其特征在于，所述方法包括以下步骤：(1)在基站的覆盖范围下总共有I个移动用户，移动用户用集合表示，基站使用非正交接入技术同时向移动用户发送数据，其中移动用户i需要接收的数据量用表示；在保证基站发送完成所有移动用户数据量的条件下，最小化下行传输时延和基站总能耗的优化问题描述为如下所示的优化问题DDRCM问题，DDRCM指的是下行资源消耗最小化：DDRCM：0≤t≤Tmax(1-3)Variables：t下面将问题中的各个变量做一个说明，如下：α：下行传输时间的权重因子；β：下行传输总能量消耗的权重因子；t：基站发送数据到移动用户的下行传输时间，单位是秒；是关于t的函数，表示基站为了在给定下行传输时间t内完成发送全部移动用户数据量所需要的最小总发射功率，单位是瓦特；W：基站到移动用户的信道带宽，单位是赫兹；n0：信道背景噪声的频谱功率密度；gBi：基站到移动用户i的信道功率增益；基站需要发送到移动用户i的数据量，单位是兆比特；基站最大下载能量消耗，单位是焦耳；Tmax：基站发送数据到移动用户的最大下行传输时间，单位是秒；(2)DDRCM问题表示如下：DDRCM：s.t.constraint(1-1)constraint(1-2)Variable：0≤t≤TmaxDDRCM问题是在给定移动用户下载量的情况下找到最优的下行资源消耗，观察DDRCM问题知道它的目标函数只有一个变量t；(3)通过强化学习算法来寻找一个最优的下行传输时间记为t*，该强化学习系统由智能体和环境所组成；基站的下行传输时间t和基站的最小发射功率都被编进了系统当前状态xT，智能体在当前状态下采取动作a进入下一个状态xT+1，同时得到环境返回的奖励r(xT，a)；在智能体和环境不断交互更新下，下行传输时间t将不断...

【专利技术属性】
技术研发人员：吴远，张成，倪克杰，陈佳，钱丽萍，黄亮，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人