一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法组成比例

技术编号：28949005 阅读：21 留言：0更新日期：2021-06-18 22:07

本发明专利技术提出一种基于深度确定性策略梯度(DDPG)算法的车对车(V2V)通信资源分配方法，V2V通信使用网络切片技术接入5G网络，利用深度强化学习优化策略获得最优的V2V用户信道分配和发射功率联合优化策略，V2V用户通过选择合适的发射功率和信道，来降低V2V链路之间的相互干扰，在满足链路延迟约束下，最大化V2V链路的系统总吞吐量。本发明专利技术使用DDPG算法可以有效解决V2V用户信道分配和功率选择的联合优化问题，可以在一系列连续动作空间的优化中表现稳定。

全部详细技术资料下载

【技术实现步骤摘要】
一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法
本专利技术涉及一种车联网技术，尤其涉及一种车联网的资源分配方法，更具体地说，涉及一种采用深度确定性策略梯度(DeepDeterministicPolicyGradient，DDPG)算法的5G车联网的车对车(Vehicle-to-Vehicle，V2V)通信资源分配方法。
技术介绍
车联网(Vehicle-to-everything，V2X)是物联网(InternetofThings，IoT)在智能交通系统(IntelligentTransportationSystem，ITS)领域中的典型应用，它是指基于Intranet、Internet和移动车载网络而形成的无处不在的智能车网络。车联网根据约定的通信协议和数据交互标准共享和交换数据。它通过对行人、路边设施、车辆、网络和云之间的实时感知和协作，实现了智能交通管理和服务，例如改善了道路安全，增强了路况感知并减少了交通拥堵。合理的车联网资源分配对于减轻干扰、提高网络效率和最终优化无线通信性能至关重要。传统的资源分配方案大多利用缓慢变化的大规模衰落信道信息进行分配。有文献提出了一种启发式的位置相关上行链路资源分配方案，其特征在于空间资源重用，而不需要完整的信道状态信息，因此减少了信令开销。另有研究开发了包括车辆分组、复用信道选择和功率控制的框架，可以降低V2V用户对蜂窝网络的总干扰，同时最大化V2V用户的和速率或最小可达速率。但随着通信量的与日俱增和通信速率需求的大幅提升，高移动性导致无线信道快...

【技术保护点】
1.一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法，其特征在于，包括步骤如下：/n(1)将车联网中的通信业务分为两种类型，即车辆与路边设施之间(V2I)的宽带多媒体数据传输以及车与车之间(V2V)关于行车安全的数据传输；/n(2)利用5G网络切片技术，将V2I与V2V通信业务分别划分到不同切片；/n(3)构建的用户资源分配系统模型为K对V2V用户共用授权带宽为B的信道；/n(4)采用分布式的资源分配方法，在考虑V2V链路延迟的情况下，以通信系统吞吐量最大化为目标构建深度强化学习模型；/n(5)考虑连续动作空间中的联合优化问题，利用包含深度学习拟合，软更新，记忆回放三个机制的深度确定性策略梯度(DDPG)算法优化深度强化学习模型；/n(6)根据优化后的深度强化学习模型，得到最优V2V用户发射功率和信道分配策略。/n

【技术特征摘要】
1.一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法，其特征在于，包括步骤如下：
(1)将车联网中的通信业务分为两种类型，即车辆与路边设施之间(V2I)的宽带多媒体数据传输以及车与车之间(V2V)关于行车安全的数据传输；
(2)利用5G网络切片技术，将V2I与V2V通信业务分别划分到不同切片；
(3)构建的用户资源分配系统模型为K对V2V用户共用授权带宽为B的信道；
(4)采用分布式的资源分配方法，在考虑V2V链路延迟的情况下，以通信系统吞吐量最大化为目标构建深度强化学习模型；
(5)考虑连续动作空间中的联合优化问题，利用包含深度学习拟合，软更新，记忆回放三个机制的深度确定性策略梯度(DDPG)算法优化深度强化学习模型；
(6)根据优化后的深度强化学习模型，得到最优V2V用户发射功率和信道分配策略。

2.根据权利要求1所述的一种采用深度确定性策略梯度算法的5G车联网V2V资源分配方法，其特征在于，所述步骤(4)中，包括如下具体步骤：
(4a)具体地定义状态空间S为与资源分配有关的观测信息，包括子信道m相应V2V链路瞬时信道状态信息Gt[m]，子信道m前一时隙接收到的干扰强度It-1[m]，子信道m在前一时隙被相邻的V...

【专利技术属性】
技术研发人员：王书墨，宋晓勤，柴新越，缪娟娟，王奎宇，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人