一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法组成比例

技术编号:28949005 阅读:21 留言:0更新日期:2021-06-18 22:07
本发明专利技术提出一种基于深度确定性策略梯度(DDPG)算法的车对车(V2V)通信资源分配方法,V2V通信使用网络切片技术接入5G网络,利用深度强化学习优化策略获得最优的V2V用户信道分配和发射功率联合优化策略,V2V用户通过选择合适的发射功率和信道,来降低V2V链路之间的相互干扰,在满足链路延迟约束下,最大化V2V链路的系统总吞吐量。本发明专利技术使用DDPG算法可以有效解决V2V用户信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。

【技术实现步骤摘要】
一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法
本专利技术涉及一种车联网技术,尤其涉及一种车联网的资源分配方法,更具体地说,涉及一种采用深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法的5G车联网的车对车(Vehicle-to-Vehicle,V2V)通信资源分配方法。
技术介绍
车联网(Vehicle-to-everything,V2X)是物联网(InternetofThings,IoT)在智能交通系统(IntelligentTransportationSystem,ITS)领域中的典型应用,它是指基于Intranet、Internet和移动车载网络而形成的无处不在的智能车网络。车联网根据约定的通信协议和数据交互标准共享和交换数据。它通过对行人、路边设施、车辆、网络和云之间的实时感知和协作,实现了智能交通管理和服务,例如改善了道路安全,增强了路况感知并减少了交通拥堵。合理的车联网资源分配对于减轻干扰、提高网络效率和最终优化无线通信性能至关重要。传统的资源分配方案大多利用缓慢变化的大规模衰落信道信息进行分配。有文献提出了一种启发式的位置相关上行链路资源分配方案,其特征在于空间资源重用,而不需要完整的信道状态信息,因此减少了信令开销。另有研究开发了包括车辆分组、复用信道选择和功率控制的框架,可以降低V2V用户对蜂窝网络的总干扰,同时最大化V2V用户的和速率或最小可达速率。但随着通信量的与日俱增和通信速率需求的大幅提升,高移动性导致无线信道快速变化给资源分配带来很大的不确定性,传统的资源分配方法无法满足人们对车联网的高可靠性和低延时需求。深度学习提供了多层计算模型,可以从非结构化源中学习具有多级抽象的高效数据表示,为解决许多传统上被认为是困难的问题提供了一种强大的数据驱动方法。基于深度强化学习算法的资源分配方案比传统资源分配算法更能满足车联网的高可靠性和低延时性的要求。有文献提出了一种可以应用于单播和广播场景的基于深度强化学习的新型分布式车对车通信资源分配机制。根据分布的资源分配机制,智能体,即V2V链路或车辆不需要等待全局状态信息就可以做出决定以找到最佳子带和传输功率水平。但现有的基于深度强化学习的V2V资源分配算法无法满足5G网络下高带宽、大容量、超可靠低时延等场景的差异化服务需求。因此本专利技术提出的资源分配方法采用5G网络切片技术,能在5G网络下为不同应用场景提供差异化服务,同时采用可在一系列连续动作空间的优化中表现稳定的DDPG算法进行V2V资源分配,以系统吞吐量最大化作为V2V资源分配的优化目标,在复杂度和性能之间取得了很好的平衡。
技术实现思路
专利技术目的:针对现有技术存在的上述问题,提出一种基于深度强化学习DDPG算法V2V用户资源分配方法,V2V通信以网络切片技术接入5G网络。该方法能在V2V链路对V2I链路没有干扰的情况下,以较低的V2V链路延迟实现系统吞吐量最大化的V2V用户资源分配。技术方案:在考虑V2V链路延迟的情况下,以合理的资源分配达到系统通信系统吞吐量最大化的目的。我们采用5G网络切片技术,V2V链路和V2I链路使用不同的切片,V2V链路对V2I链路不产生干扰。采用分布式的资源分配方法,不需要基站集中调度信道状态信息,将每条V2V链路视为智能体,并且基于瞬时状态信息和每个时隙从邻居共享的信息来选择信道和发射功率。通过建立深度强化学习模型,利用DDPG算法优化深度强化学习模型。根据优化后的深度强化学习模型,得到最优的V2V用户发射功率和信道分配策略。完成上述专利技术通过以下技术方案实现:一种采用DDPG算法的基于5G网络切片的V2V资源分配方法,包括步骤如下:(1)将车联网中的通信业务分为两种类型,即车辆与路边设施之间(V2I)的宽带多媒体数据传输以及车与车之间(V2V)关于行车安全的数据传输;(2)利用5G网络切片技术,将V2I与V2V通信业务分别划分到不同切片;(3)构建的用户资源分配系统模型为K对V2V用户共用授权带宽为B的信道;(4)采用分布式的资源分配方法,在考虑V2V链路延迟的情况下,以通信系统吞吐量最大化为目标构建深度强化学习模型;(5)考虑连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,记忆回放三个机制的深度确定性策略梯度(DDPG)算法优化深度强化学习模型;(6)根据优化后的深度强化学习模型,得到最优V2V用户发射功率和信道分配策略。进一步的,所述步骤(4)包括如下具体步骤:(4a),具体地定义状态空间S为与资源分配有关的信道信息,包括子信道m相应V2V链路瞬时信道信息Gt[m],子信道m前一时隙接收到的干扰强度It-1[m],子信道m在前一时隙被相邻的V2V链路选择的次数Nt-1[m],V2V用户传输的剩余负载Lt,剩余时延Ut,即st={Gt,It-1,Nt-1,Lt,Ut}将V2V链路视为智能体,每次V2V链路基于当前状态st∈S选择信道和发射功率;(4b),定义动作空间A为发射功率和选择的信道,表示为其中,为第k个V2V链路用户的发射功率,为第m个信道被第k个V2V链路用户使用情况;(4c),定义奖励函数R,V2V资源分配的目标是V2V链路选择频谱子带和发射功率,在满足延迟约束,对其他V2V链路产生较小的干扰的要求下最大化V2V链路的系统吞吐量。因此奖励函数可以表示为:其中,T0为最大可容忍延迟,λd、λp为两个部分的权值,T0-Ut是传输所用的时间,随着传输时间的增加,惩罚也会增加。(4d),依据建立好的S,A和R,在Q学习的基础上建立深度强化学习模型,评估函数Q(st,at)表示从状态st执行动作at后产生的折扣奖励,Q值更新函数为:其中,rt为即时奖励函数,γ为折扣因子,st为V2V链路在t时刻的状态信息,st+1表示V2V链路在执行at后的状态,A为动作at构成的动作空间。有益效果:本专利技术提出的一种采用深度确定性策略梯度算法的基于5G网络切片的V2V资源分配方法,V2V通信使用网络切片技术接入5G网络,利用深度强化学习优化策略获得最优的V2V用户信道分配和发射功率联合优化策略,V2V用户通过选择合适的发射功率和分配信道,来降低V2V链路之间的相互干扰,在满足链路延迟的约束下,最大化V2V链路的系统吞吐量。本专利技术使用DDPG算法可以有效解决V2V用户信道分配和功率选择的联合优化问题,可以在一系列连续动作空间的优化中表现稳定。综上所述,在保证资源分配合理,V2V链路间低干扰以及计算复杂度低的情况下,本专利技术提出的一种采用深度确定性策略梯度算法的基于5G网络切片的V2V资源分配方法在最大化V2V系统吞吐量方面是优越的。附图说明图1为本专利技术实施例提供的一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法的流程图;图2为本专利技术实施例提供的基于5G网络切片技术的V2V用户资源分配模型示意本文档来自技高网
...

【技术保护点】
1.一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法,其特征在于,包括步骤如下:/n(1)将车联网中的通信业务分为两种类型,即车辆与路边设施之间(V2I)的宽带多媒体数据传输以及车与车之间(V2V)关于行车安全的数据传输;/n(2)利用5G网络切片技术,将V2I与V2V通信业务分别划分到不同切片;/n(3)构建的用户资源分配系统模型为K对V2V用户共用授权带宽为B的信道;/n(4)采用分布式的资源分配方法,在考虑V2V链路延迟的情况下,以通信系统吞吐量最大化为目标构建深度强化学习模型;/n(5)考虑连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,记忆回放三个机制的深度确定性策略梯度(DDPG)算法优化深度强化学习模型;/n(6)根据优化后的深度强化学习模型,得到最优V2V用户发射功率和信道分配策略。/n

【技术特征摘要】
1.一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法,其特征在于,包括步骤如下:
(1)将车联网中的通信业务分为两种类型,即车辆与路边设施之间(V2I)的宽带多媒体数据传输以及车与车之间(V2V)关于行车安全的数据传输;
(2)利用5G网络切片技术,将V2I与V2V通信业务分别划分到不同切片;
(3)构建的用户资源分配系统模型为K对V2V用户共用授权带宽为B的信道;
(4)采用分布式的资源分配方法,在考虑V2V链路延迟的情况下,以通信系统吞吐量最大化为目标构建深度强化学习模型;
(5)考虑连续动作空间中的联合优化问题,利用包含深度学习拟合,软更新,记忆回放三个机制的深度确定性策略梯度(DDPG)算法优化深度强化学习模型;
(6)根据优化后的深度强化学习模型,得到最优V2V用户发射功率和信道分配策略。


2.根据权利要求1所述的一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法,其特征在于,所述步骤(4)中,包括如下具体步骤:
(4a)具体地定义状态空间S为与资源分配有关的观测信息,包括子信道m相应V2V链路瞬时信道状态信息Gt[m],子信道m前一时隙接收到的干扰强度It-1[m],子信道m在前一时隙被相邻的V...

【专利技术属性】
技术研发人员:王书墨宋晓勤柴新越缪娟娟王奎宇
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1