基于深度强化学习的车联网信道资源优化方法及系统技术方案

技术编号：34810947 阅读：24 留言：0更新日期：2022-09-03 20:19

本发明专利技术公开了一种基于深度强化学习的车联网信道资源优化方法及系统，其中方法包括：首先获取目标车辆对应的可用信道资源列表；根据目标车辆中的第一执行网络和可用信道资源列表，确定转移元组；目标车辆将转移元组发送至路测单元；路测单元将接收到的转移元组存入经验回放池；从经验回放池中抽取数据进行训练，并通过最小化损失函数确定网络权重；路测单元将网络权重发送至目标车辆；目标车辆根据网络权重，对第一执行网络和第二执行网络进行更新。本申请实施例让车辆选择合适的信道进行通信，优化了信道资源的分配方式，降低了信道冲突发生的可能；另外，本申请实施例提出中心式训练，分布式决策的框架，能有效提高训练效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度强化学习的车联网信道资源优化方法及系统

[0001]本申请涉及车联网
，尤其涉及一种基于深度强化学习的车联网信道资源优化方法及系统。

技术介绍

[0002]随着智能网联汽车的快速发展，旨在让交通参与者们通过现代通信技术互联互通的蜂窝车联网(C
‑
V2X，Cellular
‑
VehicletoEverything)通信技术受到广泛关注。在V2V(Vehicle
‑
to
‑
Vehicle)场景中，3GPP提出车辆在C
‑
V2X的Mode4(模式4)中通过执行SPS(Semi
‑
PersistentScheduling，半持续调度)机制为车辆选定信道资源。在SPS机制中，选定信道资源后，相关技术一般是为车辆在候选资源中随机选择一个信道资源进行数据传输。但是，由于SPS机制中当前车辆对其他车辆的信息具有强依赖性，在车辆不断移动的情况下，车辆随机选定的信道资源的通信可靠性难以得到保障，甚至可能出现车辆间选定的信道有冲突，导致V2V通信无法进行的情况。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种基于深度强化学习的车联网信道资源优化方法及系统。
[0004]第一方面，本申请实施例提供了一种基于深度强化学习的车联网信道资源优化方法，包括：获取所述目标车辆对应的可用信道资源列表；其中，所述可用信道资源列表包括多个可用信道资源；将所述...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车联网信道资源优化方法，其特征在于，包括：获取所述目标车辆对应的可用信道资源列表；其中，所述可用信道资源列表包括多个可用信道资源；将所述可用信道资源的信号强度作为第一观测值，将所述第一观测值输入所述目标车辆中的第一执行网络，获得信道选择动作；获取下一时隙的所述可用信道资源的信号强度作为第二观测值，并获取动作奖励；所述目标车辆将转移元组发送至路测单元；其中，所述转移元组包括根据所述第一观测值、所述信道选择动作、所述第二观测值和所述动作奖励。所述路测单元将接收到的转移元组存入经验回放池；从所述经验回放池中抽取数据进行训练，并通过最小化损失函数确定网络权重；所述路测单元将所述网络权重发送至所述目标车辆；所述目标车辆根据所述网络权重，对所述第一执行网络和第二执行网络进行更新；其中，第一执行网络为actor网络，第二执行网络为critic网络。2.根据权利要求1所述的基于深度强化学习的车联网信道资源优化方法，其特征在于，所述从所述经验回放池中抽取数据进行训练，包括：当所述经验回放池的数据量大于预设的第一阈值，从所述经验回放池中抽取数据，以预设步长进行一次训练。3.根据权利要求1
‑
2所述的基于深度强化学习的车联网信道资源优化方法，其特征在于，所述从所述经验回放池中抽取数据进行训练，包括：基于多头注意力机制，确定所述经验回放池中所有数据与所述目标车辆的相关度；抽取所述相关度大于预设的第二阈值的数据进行训练。4.根据权利要求3所述的基于深度强化学习的车联网信道资源优化方法，其特征在于，所述信道选择动作满足：在每个时隙中所述目标车辆只选择一个所述可用信道资源进行通信；所述信道选择动作的值取值为0或者1。5.根据权利要求4所述的基于深度强化学习的车联网信道资源优化方法，其特征在于，车辆集合中有包括所述目...

【专利技术属性】
技术研发人员：古博，陈维祥，郑炳坤，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人