当前位置: 首页 > 专利查询>中山大学专利>正文

基于深度强化学习的车联网信道资源优化方法及系统技术方案

技术编号:34810947 阅读:24 留言:0更新日期:2022-09-03 20:19
本发明专利技术公开了一种基于深度强化学习的车联网信道资源优化方法及系统,其中方法包括:首先获取目标车辆对应的可用信道资源列表;根据目标车辆中的第一执行网络和可用信道资源列表,确定转移元组;目标车辆将转移元组发送至路测单元;路测单元将接收到的转移元组存入经验回放池;从经验回放池中抽取数据进行训练,并通过最小化损失函数确定网络权重;路测单元将网络权重发送至目标车辆;目标车辆根据网络权重,对第一执行网络和第二执行网络进行更新。本申请实施例让车辆选择合适的信道进行通信,优化了信道资源的分配方式,降低了信道冲突发生的可能;另外,本申请实施例提出中心式训练,分布式决策的框架,能有效提高训练效率。率。率。

【技术实现步骤摘要】
基于深度强化学习的车联网信道资源优化方法及系统


[0001]本申请涉及车联网
,尤其涉及一种基于深度强化学习的车联网信道资源优化方法及系统。

技术介绍

[0002]随着智能网联汽车的快速发展,旨在让交通参与者们通过现代通信技术互联互通的蜂窝车联网(C

V2X,Cellular

VehicletoEverything)通信技术受到广泛关注。在V2V(Vehicle

to

Vehicle)场景中,3GPP提出车辆在C

V2X的Mode4(模式4)中通过执行SPS(Semi

PersistentScheduling,半持续调度)机制为车辆选定信道资源。在SPS机制中,选定信道资源后,相关技术一般是为车辆在候选资源中随机选择一个信道资源进行数据传输。但是,由于SPS机制中当前车辆对其他车辆的信息具有强依赖性,在车辆不断移动的情况下,车辆随机选定的信道资源的通信可靠性难以得到保障,甚至可能出现车辆间选定的信道有冲突,导致V2V通信无法进行的情况。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种基于深度强化学习的车联网信道资源优化方法及系统。
[0004]第一方面,本申请实施例提供了一种基于深度强化学习的车联网信道资源优化方法,包括:获取所述目标车辆对应的可用信道资源列表;其中,所述可用信道资源列表包括多个可用信道资源;将所述可用信道资源的信号强度作为第一观测值,将所述第一观测值输入所述目标车辆中的第一执行网络,获得信道选择动作;获取下一时隙的所述可用信道资源的信号强度作为第二观测值,并获取动作奖励;所述目标车辆将转移元组发送至路测单元;其中,所述转移元组包括根据所述第一观测值、所述信道选择动作、所述第二观测值和所述动作奖励。所述路测单元将接收到的转移元组存入经验回放池;从所述经验回放池中抽取数据进行训练,并通过最小化损失函数确定网络权重;所述路测单元将所述网络权重发送至所述目标车辆;所述目标车辆根据所述网络权重,对所述第一执行网络和第二执行网络进行更新;其中,第一执行网络为actor网络,第二执行网络为critic网络。
[0005]可选地,所述从所述经验回放池中抽取数据进行训练,包括:当所述经验回放池的数据量大于预设的第一阈值,从所述经验回放池中抽取数据,以预设步长进行一次训练。
[0006]可选地,所述从所述经验回放池中抽取数据进行训练,包括:基于多头注意力机制,确定所述经验回放池中所有数据与所述目标车辆的相关度;抽取所述相关度大于预设的第二阈值的数据进行训练。
[0007]可选地,所述信道选择动作满足:在每个时隙中所述目标车辆只选择一个所述可用信道资源进行通信;所述信道选择动作的值取值为0或者1。
[0008]可选地,车辆集合中有包括所述目标车辆在内的多辆车;所述方法还包括确定所述动作奖励的步骤,该步骤包括:根据所述目标车辆的所述信道选择动作,确定所述信道选
择动作对应的信道增益和信号发射功率;根据所述信道选择动作、所述信道增益、所述信号发射功率和所述噪声功率,确定信干噪比;根据所述信干噪比、通信距离以及最远关注距离,确定所述动作奖励。
[0009]可选地,所述根据所述信干噪比、通信距离以及最远关注距离,确定所述动作奖励,包括:当所述信干噪比大于预设的最低信干噪比阈值,根据所述信干噪比、通信距离以及最远关注距离,确定所述动作奖励;当所述信干噪比小于或等于所述最低信干噪比阈值,根据所述通信距离和所述最远关注距离,确定所述动作奖励。
[0010]第二方面,本申请实施例提供了一种基于深度强化学习的车联网信道资源优化系统,包括:第一模块,用于获取所述目标车辆对应的可用信道资源列表;其中,所述可用信道资源列表包括多个可用信道资源;第二模块,用于将所述可用信道资源的信号强度作为第一观测值,将所述第一观测值输入所述目标车辆中的第一执行网络,获得信道选择动作;第三模块,用于获取下一时隙的所述可用信道资源的信号强度作为第二观测值,并获取动作奖励;第四模块,用于所述目标车辆将转移元组发送至路测单元;其中,所述转移元组包括根据所述第一观测值、所述信道选择动作、所述第二观测值和所述动作奖励;第五模块,用于所述路测单元将接收到的转移元组存入经验回放池;第六模块,用于从所述经验回放池中抽取数据进行训练,并通过最小化损失函数确定网络权重;第七模块,用于所述路测单元将所述网络权重发送至所述目标车辆;第八模块,用于所述目标车辆根据所述网络权重,对所述第一执行网络和第二执行网络进行更新;其中,第一执行网络为actor网络,第二执行网络为critic网络。
[0011]本申请实施例的有益效果如下:首先获取目标车辆对应的可用信道资源列表;其中,可用信道资源列表包括多个可用信道资源;根据目标车辆中的第一执行网络和可用信道资源列表,确定转移元组;目标车辆将转移元组发送至路测单元;路测单元将接收到的转移元组存入经验回放池;从经验回放池中抽取数据进行训练,并通过最小化损失函数确定网络权重;路测单元将网络权重发送至目标车辆;目标车辆根据网络权重,对第一执行网络和第二执行网络进行更新;其中,第一执行网络为actor网络,第二执行网络为critic网络。本申请实施例让车辆在可用信道资源列表中选择合适的信道进行通信,进一步优化了信道资源的分配方式,降低了信道冲突发生的可能;另一方面,本申请实施例提出中心式训练,分布式决策的框架,能够帮助车辆在仅利用本地信息的情况下选择合适的信道,并且能够相当程度上提高车辆本地的第一执行网络及第二执行网络的收敛速度,让车辆在更短的时间内对信道资源进行更好的优化。
附图说明
[0012]附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
[0013]图1是本申请实施例提供的V2V通信示意图;
[0014]图2为本申请实施例提供的基于深度强化学习的车联网信道资源优化方法的步骤流程图;
[0015]图3为本申请实施例提供的中心式训练

分布式执行训练框架的示意图;
[0016]图4为本申请实施例提供的基于深度强化学习的车联网信道资源优化系统的示意
图;
[0017]图5为本申请实施例提供的基于深度强化学习的车联网信道资源优化装置的示意图。
具体实施方式
[0018]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0019]需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的车联网信道资源优化方法,其特征在于,包括:获取所述目标车辆对应的可用信道资源列表;其中,所述可用信道资源列表包括多个可用信道资源;将所述可用信道资源的信号强度作为第一观测值,将所述第一观测值输入所述目标车辆中的第一执行网络,获得信道选择动作;获取下一时隙的所述可用信道资源的信号强度作为第二观测值,并获取动作奖励;所述目标车辆将转移元组发送至路测单元;其中,所述转移元组包括根据所述第一观测值、所述信道选择动作、所述第二观测值和所述动作奖励。所述路测单元将接收到的转移元组存入经验回放池;从所述经验回放池中抽取数据进行训练,并通过最小化损失函数确定网络权重;所述路测单元将所述网络权重发送至所述目标车辆;所述目标车辆根据所述网络权重,对所述第一执行网络和第二执行网络进行更新;其中,第一执行网络为actor网络,第二执行网络为critic网络。2.根据权利要求1所述的基于深度强化学习的车联网信道资源优化方法,其特征在于,所述从所述经验回放池中抽取数据进行训练,包括:当所述经验回放池的数据量大于预设的第一阈值,从所述经验回放池中抽取数据,以预设步长进行一次训练。3.根据权利要求1

2所述的基于深度强化学习的车联网信道资源优化方法,其特征在于,所述从所述经验回放池中抽取数据进行训练,包括:基于多头注意力机制,确定所述经验回放池中所有数据与所述目标车辆的相关度;抽取所述相关度大于预设的第二阈值的数据进行训练。4.根据权利要求3所述的基于深度强化学习的车联网信道资源优化方法,其特征在于,所述信道选择动作满足:在每个时隙中所述目标车辆只选择一个所述可用信道资源进行通信;所述信道选择动作的值取值为0或者1。5.根据权利要求4所述的基于深度强化学习的车联网信道资源优化方法,其特征在于,车辆集合中有包括所述目...

【专利技术属性】
技术研发人员:古博陈维祥郑炳坤
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1