The invention relates to a base station selection method based on deep reinforcement learning in LTE V, which includes the following steps: 1) constructing Q function according to LTE V network communication characteristics and base station selective performance indicators; 2) acquiring vehicle status information in the network by mobile management unit, constructing state matrix and storing it in experience playback pool; 3) taking experience playback pool as sample, adopting Q function based on the constructed Q function. Competition Dual training mode training obtains the main DQN for selecting the optimal access base station; 4) The main DQN obtained by training processes the input information and outputs the selected access base station. Compared with the prior art, the present invention takes into account both the communication delay performance and the load balancing performance, enables the vehicle to communicate in a timely and reliable manner, and has the advantages of high base station selection efficiency and high accuracy.
【技术实现步骤摘要】
LTE-V中基于深度强化学习的基站选择方法
本专利技术涉及LTE-V通信技术和DRL技术,具体涉及一种基于神经网络连续决策的基站选择方法,用于降低LTE-V网络拥塞率。
技术介绍
LTE-V(长期演进-车辆,LongTermEvolution-Vehicl)是我国具有自主知识产权的V2X技术,是基于分时长期演进(TimeDivision-LongTermEvolution,TD-LTE)的ITS系统解决方案,属于LTE后续演进技术的重要应用分支。2015年2月,3GPP工作组LTE-V标准化研究工作正式启动,Release14的提出标志着LTE-V技术标准制定工作在3GPP工作组计划中的正式开始,同时也将在5G中得到兼容和性能的大幅提升。LTEV2VCorepart已于2016年底完结,LTEV2XCorepart在2017年初完结,V2V为LTE-V的核心,预计2018年底完结,基于LTE-V技术标准的系统和设备预计将于2020年后开始商用。在高峰时期和拥堵路段,道路安全和交通效率会产生的负载量很大的周期性广播信息。如果没有合理地拥塞控制方案,这些消息所产生的负载会导致严重的信息延迟,并且会对LTE网络容量带来严峻的考验。除此之外,车辆通过随机竞争选择信道状况最好的基站,这在车流量较大的情况下很容易引发网络拥塞。因此,有必要为LTE-V设计一种有效并且鲁棒性好的eNB(最佳基站,evolvednodeB)选择算法。
技术实现思路
本专利技术的目的就是针对引入LTE-V通信技术的蜂窝通信网的时延性能和网络拥塞方面存在的不足,而提供一种LTE-V中基于深度强化学 ...
【技术保护点】
1.一种LTE‑V中基于深度强化学习的基站选择方法,其特征在于,包括以下步骤:1)根据LTE‑V网络通信特点及基站选择性能指标,构建Q函数;2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;3)以经验回放池为样本,基于构建的Q函数,采用竞争‑双重训练方式训练获得一用于选择最优接入基站的主DQN;4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。
【技术特征摘要】
1.一种LTE-V中基于深度强化学习的基站选择方法,其特征在于,包括以下步骤:1)根据LTE-V网络通信特点及基站选择性能指标,构建Q函数;2)移动管理单元获取网络内车辆的状态信息,构建状态矩阵,并存入经验回放池;3)以经验回放池为样本,基于构建的Q函数,采用竞争-双重训练方式训练获得一用于选择最优接入基站的主DQN;4)以训练获得的主DQN对输入信息进行处理,输出选择接入基站。2.根据权利要求1所述的LTE-V中基于深度强化学习的基站选择方法,其特征在于,所述LTE-V网络通信特点包括通信带宽和信噪比,所述基站选择性能指标包括用户接收速率和基站负载。3.根据权利要求2所述的LTE-V中基于深度强化学习的基站选择方法,其特征在于,所述Q函数具体构建如下:式中,μ表示用户接收速率,L表示基站负载,R表示奖励函数,α表示学习率,Q(st,at)表示在t时刻处于状态s采取动作a所能获得的期望奖励,下标s'表示在状态s处采取动作a进入的下一个状态,γ∈[0,1]为折扣因子,w1、w2为权重系数,表示在t+1时刻处于状态s采取不同动作所能获得的最大期望奖励。4.根据权利要求1所述的LTE-V中基于深度强化学习的基站选择方法,其特征在于,所述竞争-双重训练方式中:基于Q函数建立一目标DQN和一主DQN,由主DQN选择基站,该基站的Q函数最大值由目标DQN计算生成。5.根据权利要求1所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。