当前位置: 首页 > 专利查询>同济大学专利>正文

LTE-V中基于深度强化学习的基站选择方法技术

技术编号:20082075 阅读:20 留言:0更新日期:2019-01-15 02:58
本发明专利技术涉及一种LTE‑V中基于深度强化学习的基站选择方法,包括以下步骤:1)根据LTE‑V网络通信特点及基站选择性能指标,构建Q函数;2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;3)以经验回放池为样本,基于构建的Q函数,采用竞争‑双重训练方式训练获得一用于选择最优接入基站的主DQN;4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。与现有技术相比,本发明专利技术同时兼顾通信的时延性能和负载均衡性能,使得车辆能够及时可靠地进行通信,具有基站选择效率高、精确度高等优点。

Base Station Selection Method Based on Deep Reinforcement Learning in LTE-V

The invention relates to a base station selection method based on deep reinforcement learning in LTE V, which includes the following steps: 1) constructing Q function according to LTE V network communication characteristics and base station selective performance indicators; 2) acquiring vehicle status information in the network by mobile management unit, constructing state matrix and storing it in experience playback pool; 3) taking experience playback pool as sample, adopting Q function based on the constructed Q function. Competition Dual training mode training obtains the main DQN for selecting the optimal access base station; 4) The main DQN obtained by training processes the input information and outputs the selected access base station. Compared with the prior art, the present invention takes into account both the communication delay performance and the load balancing performance, enables the vehicle to communicate in a timely and reliable manner, and has the advantages of high base station selection efficiency and high accuracy.

【技术实现步骤摘要】
LTE-V中基于深度强化学习的基站选择方法
本专利技术涉及LTE-V通信技术和DRL技术,具体涉及一种基于神经网络连续决策的基站选择方法,用于降低LTE-V网络拥塞率。
技术介绍
LTE-V(长期演进-车辆,LongTermEvolution-Vehicl)是我国具有自主知识产权的V2X技术,是基于分时长期演进(TimeDivision-LongTermEvolution,TD-LTE)的ITS系统解决方案,属于LTE后续演进技术的重要应用分支。2015年2月,3GPP工作组LTE-V标准化研究工作正式启动,Release14的提出标志着LTE-V技术标准制定工作在3GPP工作组计划中的正式开始,同时也将在5G中得到兼容和性能的大幅提升。LTEV2VCorepart已于2016年底完结,LTEV2XCorepart在2017年初完结,V2V为LTE-V的核心,预计2018年底完结,基于LTE-V技术标准的系统和设备预计将于2020年后开始商用。在高峰时期和拥堵路段,道路安全和交通效率会产生的负载量很大的周期性广播信息。如果没有合理地拥塞控制方案,这些消息所产生的负载会导致严重的信息延迟,并且会对LTE网络容量带来严峻的考验。除此之外,车辆通过随机竞争选择信道状况最好的基站,这在车流量较大的情况下很容易引发网络拥塞。因此,有必要为LTE-V设计一种有效并且鲁棒性好的eNB(最佳基站,evolvednodeB)选择算法。
技术实现思路
本专利技术的目的就是针对引入LTE-V通信技术的蜂窝通信网的时延性能和网络拥塞方面存在的不足,而提供一种LTE-V中基于深度强化学习的基站选择方法。本专利技术的目的可以通过以下技术方案来实现:一种LTE-V中基于深度强化学习的基站选择方法,包括以下步骤:1)根据LTE-V网络通信特点及基站选择性能指标,构建Q函数;2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;3)以经验回放池为样本,基于构建的Q函数,采用竞争-双重训练方式训练获得一用于选择最优接入基站的主DQN;4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。进一步地,所述LTE-V网络通信特点包括通信带宽和信噪比,所述基站选择性能指标包括用户接收速率和基站负载。进一步地,所述Q函数具体构建如下:式中,μ表示用户接收速率,L表示基站负载,R表示奖励函数,α表示学习率,Q(st,at)表示在t时刻处于状态s采取动作a所能获得的期望奖励,下标s'表示在状态s处采取动作a进入的下一个状态,γ∈[0,1]为折扣因子,w1、w2为权重系数,表示在t+1时刻处于状态s采取不同动作所能获得的最大期望奖励。进一步地,所述竞争-双重训练方式中:基于Q函数建立一目标DQN和一主DQN,由主DQN选择基站,该基站的Q函数最大值由目标DQN计算生成。进一步地,所述竞争-双重训练方式中,以损失函数是否收敛作为判断训练是否结束的依据,所述损失函数为:式中,rt+1表示在t+1时刻位于状态s采取动作a之后收获的奖励大小,Qtarget表示目标DQN生成的Q函数最大值,Qmain表示主DQN生成的Q函数最大值,γ∈[0,1]是折扣因子。进一步地,所述竞争-双重训练方式中,每次训练使用ε-greedy算法来选择接入基站,同时使用反向传播算法和适应性矩估计算法更新网络参数。进一步地,所述ε-greedy算法的探索概率如下:εt+1(s)=δ×f(s,a,σ)+(1-δ)×εt(s)式中,δ是当前状态可选择的动作总数,f(s,a,σ)来表征环境的不确定性,σ∈[0,1]表示方向灵敏度,εt+1(s)表示在t+1时刻位于状态s采取DQN生成动作a的概率。进一步地,所述竞争-双重训练方式中,使用交叉验证法选择最优的超参数。进一步地,经验回放池的容量为T,当存入的状态矩阵的数量大于T时,优先删除最早存入的状态矩阵。与现有技术相比,本专利技术同时兼顾通信的时延性能和负载均衡性能,使得车辆能够及时可靠地进行通信,具有以下有益效果:1)本专利技术根据LTE-V通信特点设计相关的Q函数,从而将拥塞控制问题转化为强化学习中的最优化决策问题,提高基站选择效率。2)本专利技术以MME(移动管理单元,MobilityManagementEntity)作为Agent(代理),考虑车联网中基站侧网络拥塞概率,以及接收端的接收速率来设计reward(奖励)函数,结合LTE-V中车辆通信的特点进行Q(动作-价值)函数建模,提出基于深度强化学习的基站eNB选择方法,使网络的拥塞概率在一个最大值之下,从而保证整个网络的负载均衡。3)本专利技术基于竞争-双重深度Q网络(Dueling-DoubleDeepQNetwork)拟合在LTE-V网络下建模的Q函数,并以接收时延、网络拥塞概率作为基站选择的标准,为车辆选择最不易发生网络拥塞的基站,保证LTE-V网络时延性能和负载均衡,从而提升通信性能。4)本专利技术在,每次训练使用ε-greedy算法来选择接入基站,同时使用反向传播算法和适应性矩估计(Adaptivemomentestimation,Adam)算法更新网络参数,有效增加了动作空间丰富性5)本专利技术采用交叉验证法进行超参数选择,可以获得更优的网络模型,从而提高基站选择精度。附图说明图1为本专利技术的应用场景示意图;图2为本专利技术的流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术针对长期演进-车辆(LongTermEvolution-Vehicle,LTE-V)下的车辆随机竞争接入网络,容易造成网络拥塞的问题,提供一种LTE-V中基于深度强化学习的基站选择方法,同时兼顾通信的时延性能和负载均衡性能,使得车辆能够及时可靠地进行通信,应用场景如图1所示。本专利技术使用LTE核心网中移动管理单元(MobilityManagementEntity,MME)作为代理(agent),同时考虑网络侧负载与接收端接收速率,完成车辆与eNB的匹配问题,降低网络拥塞概率,减少网络时延。使用竞争-双重深度Q网络(Dueling-DoubleDeepQNetwork,DQN)来拟合目标动作-估值函数(action-valuefunction),完成高维状态输入,低维动作输出的转化。如图2所示,该方法包括以下步骤:步骤1:根据LTE-V网络通信特点及基站选择性能指标,构建Q函数。所述LTE-V网络通信特点包括通信带宽Bandwidth和信噪比SINR,所述基站选择性能指标包括用户接收速率μ和基站负载L,则Q函数具体构建如下:μ=Bandwidth×log2(1+SINR)式中,μ表示用户接收速率,L表示基站负载,R表示奖励函数,α表示学习率,Q(st,at)表示在t时刻处于状态s采取动作a所能获得的期望奖励,下标s'表示在状态s处采取动作a进入的下一个状态,下标k表示第k个基站,γ∈[0,1]为折扣因子,w1、w2为权重系数,表示在t+1时刻处于状态s采取不同动作所能获得的最大期望奖励。步骤2:移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池。经验本文档来自技高网...

【技术保护点】
1.一种LTE‑V中基于深度强化学习的基站选择方法,其特征在于,包括以下步骤:1)根据LTE‑V网络通信特点及基站选择性能指标,构建Q函数;2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;3)以经验回放池为样本,基于构建的Q函数,采用竞争‑双重训练方式训练获得一用于选择最优接入基站的主DQN;4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。

【技术特征摘要】
1.一种LTE-V中基于深度强化学习的基站选择方法,其特征在于,包括以下步骤:1)根据LTE-V网络通信特点及基站选择性能指标,构建Q函数;2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;3)以经验回放池为样本,基于构建的Q函数,采用竞争-双重训练方式训练获得一用于选择最优接入基站的主DQN;4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。2.根据权利要求1所述的LTE-V中基于深度强化学习的基站选择方法,其特征在于,所述LTE-V网络通信特点包括通信带宽和信噪比,所述基站选择性能指标包括用户接收速率和基站负载。3.根据权利要求2所述的LTE-V中基于深度强化学习的基站选择方法,其特征在于,所述Q函数具体构建如下:式中,μ表示用户接收速率,L表示基站负载,R表示奖励函数,α表示学习率,Q(st,at)表示在t时刻处于状态s采取动作a所能获得的期望奖励,下标s'表示在状态s处采取动作a进入的下一个状态,γ∈[0,1]为折扣因子,w1、w2为权重系数,表示在t+1时刻处于状态s采取不同动作所能获得的最大期望奖励。4.根据权利要求1所述的LTE-V中基于深度强化学习的基站选择方法,其特征在于,所述竞争-双重训练方式中:基于Q函数建立一目标DQN和一主DQN,由主DQN选择基站,该基站的Q函数最大值由目标DQN计算生成。5.根据权利要求1所...

【专利技术属性】
技术研发人员:郭爱煌谢浩
申请(专利权)人:同济大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1