一种基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法技术

技术编号：41225120 阅读：4 留言：0更新日期：2024-05-09 23:43

本发明专利技术公开了一种基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，属于自动驾驶技术领域。本发明专利技术方法主要包括：依据高速公路单向多车道场景搭建强化学习模型，包括建立基于检测区道路网格化处理得到的状态空间、基于换道关键区的开放是否和持续时间设置动作空间、构建奖励函数以增加平均绿灯时间内的换道车辆数和降低换道信号开放成本；基于CNN的智能体采用DQN算法进行汇入策略求解，训练基于DQN‑CNN的深度强化学习模型，获得高速公路自动驾驶专用道车辆智能汇入模型。本发明专利技术利用深度强化学习算法提高了高速公路场景下自动驾驶车辆汇入专用道时的安全性和高效性，可以更好地解决高速公路系统中复杂多变的交通问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自动驾驶，特别涉及了一种面向高速公路的自动驾驶专用车道汇入方法。

技术介绍

1、随着无线通信、人工智能、大数据等高新技术的飞速发展，自动驾驶技术的出现和兴起为实现道路交通系统运行安全性、高效性和可靠性提供了重要的解决方法。然而，自动驾驶技术、相关配套设施、相关法律法规等仍需要久远持续地迭代更新，自动驾驶车辆的完全普及也需要经过漫长的过程，因此道路交通系统必然会经历一个人工驾驶车辆和自动驾驶车辆混行的过渡期，两种类型车辆的混行也必然会带来一定的安全隐患。

2、高速公路自动驾驶专用车道的设立可以为自动驾驶车辆提供更安全纯净的行车环境，在减少交通事故、提升道路通行能力、优化车头时距等方面发挥积极的作用。因此，研究自动驾驶车辆如何换道汇入专用道、如何提升换道效率和减少换道事故等问题具有较大的实际价值。目前不少学者借鉴了高速公路合流区匝道交通信号管控的方案，例如汇入线性控制、道路占有率控制、需求容量差控制等方法。这些方法可以有效解决频发性交通拥堵，但需要依赖先验知识和面临模型参数调整的难题，无法较好地适应高速公路系统随机性、时变性、非线性的特点，缺少对实时交通流信息的及时反馈，甚至会导致交通管控异常，具有一定的局限性。

技术实现思路

1、专利技术目的：为了解决上述技术问题，本专利技术提出了一种基于深度q网络(deep q-network，dqn)和卷积神经网络(convolutional neural network，cnn)的高速公路自动驾驶专用道车辆汇入方法，能

2、技术方案：为了实现上述技术目的，本专利技术的技术方案为：

3、一种基于dqn和cnn的高速公路自动驾驶专用道车辆汇入方法，包括以下步骤：依据高速公路单向多车道场景搭建强化学习模型，通过采用离散交通状态编码对检测区道路进行网格化处理建立强化学习模型的状态空间，根据从混行车道至自动驾驶专用道的换道关键区的开放是否和持续时间设置强化学习模型的动作空间，以增加平均绿灯时间内的换道车辆数和降低换道信号开放成本构建强化学习模型的奖励函数；

4、基于cnn的智能体采用dqn算法进行汇入策略求解，训练深度强化学习模型，获得高速公路自动驾驶专用道车辆智能汇入模型。

5、作为优选，所述高速公路单向多车道场景中至少包括一个自动驾驶专用道和一个支持自动驾驶车辆和人工驾驶车辆混合行驶的混行车道；在路侧设置自动驾驶专用道入口距离标志、专用道汇入信号灯、禁止超车标志，设计检测区和换道区。

6、作为优选，所述检测区用于监测车辆速度和位置信息，以支持于自动驾驶车辆换道交通信号控制方案的确定；所述换道区用于向自动驾驶车辆传输交通信号控制和是否可换道指令，长度为：其中，lh为缓冲距离，n为变换车道的次数，v0为车辆到达换道区的速度，t0为车辆完成一次换道所需时间；在换道区尾端设有交通信号灯，当信号为绿灯时自动驾驶车辆被允许换道至专用道，当信号为红灯时自动驾驶车辆被禁止换道至专用道。

7、作为优选，所述深度强化学习模型在仿真环境中进行训练，仿真环境中，人工驾驶车辆采用元胞自动机中的三相交通流模型kkw进行换道控制和跟驰控制；自动驾驶车辆采用kkw模型进行换道控制，采用自适应巡航控制acc或协同式自适应巡航控制cacc进行跟驰控制。

8、作为优选，搭建基于dqn-cnn的深度强化学习模型，具体包括：

9、建立状态空间s：采用离散交通状态编码对检测区道路进行网格化处理，设置网格长度和宽度分别为车辆长度llen和车辆宽度lwid，将生成的位置矩阵作为状态空间的输入φ(st)，大小为1×[ldet/llen]×[llane×n/lwid]，ldet为检测区长度，llane为车道宽度，n为主线车道数；采用矩阵中的每个元素来描述道路交通状态，以车辆中心点落在网格表示对该网格的占用；

10、设置动作空间a：根据换道关键区的开放是否和持续时间将动作空间设置为a＝{a1,a2}，其中动作空间a1表示换道区交通信号显示为红灯，动作空间a2表示换道区交通信号显示为绿灯，智能体在每个动作完成后再选择执行下一个动作；

11、构建奖励函数r：奖励函数考虑增加平均绿灯时间内的换道车辆数和降低换道信号开放成本，即：

12、

13、其中，为换道信号开放成本，nc为绿灯时间内成功换道至自动驾驶专用道的车辆数，δt1为前一个绿灯持续时间。

14、作为优选，所述强化学习模型基于贪心策略进行动作选择，在每次迭代时产生随机数，若随机数小于阈值ε则采取随机探索策略，若随机数大于ε则根据q表选择使得q值最大的动作。

15、作为优选，所述基于cnn的智能体结构，包括两层卷积层、一层激励层、一层池化层、一层全连接层，输入状态空间矩阵，输出q表；通过dqn算法以目标q值和实际q值之间的时序差分误差更新神经网络的权重参数。

16、作为优选，采用优先经验回放机制，训练基于dqn-cnn的深度强化学习模型，具体包括：

17、初始化样本数为npool的经验回放池d和神经网络权重参数θ，将φ(st)作为当前值网络的输入，通过ε-greedy策略选择动作at，得到下一时刻交通状态st+1和奖励rt+1，将(st，at，st+1，rt+1)存储在经验回放池中；

18、在经验回放池中选取nbatch个样本用于调参，时序差分误差δt计算方式为：

19、δt＝rt+1+γmaxq(φ(st+1)，at+1；θ′)-q(φ(st)，at；θt)

20、其中，γ为折扣因子，q(φ(st+1)，at+1；θ′)为目标网络的q值估计，at+1为下一时刻的动作，θ′为下一时刻神经网络的参数，q(φ(st)，at；θt)为当前q网络的q值估计，st为当前时刻的状态，θt当前时刻神经网络的参数；

21、采用自适应时刻估计梯度下降法优化神经网络权重参数θ；

22、采用优先经验回放机制，每个样本采样的概率为：

23、

24、其中，ρ1为正数，|δi|为第i个样本的时序差分误差的绝对值，k为经验池中的样本数，为第i个样本经验回放的优先级；

25、引入重要性采样权重修正损失函数来计算每个样本的采样权重ωj：

26、

27、其中，n为经验回放缓冲区中样本总数，p(j)为第j个样本被选中的概率，β为控制权重调整的超参数。

28、有益效果：本专利技术通过一种基于dqn和cnn的高速公路自动驾驶专用道车辆汇入方法，使得高速公路中的自动驾驶车辆能够安全、高效地汇入自动驾驶专用道。与现有技术相比，具有如下优点：1、本专利技术建立基于cnn-dqn的深度强化学习模型，利用其“自学习、无模型、数据驱动”的特点可以解决传统管控方案依赖先验知识和参数调整的难题本文档来自技高网...

【技术保护点】

1.一种基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述高速公路单向多车道场景中至少包括一个自动驾驶专用道和一个支持自动驾驶车辆和人工驾驶车辆混合行驶的混行车道；在路侧设置自动驾驶专用道入口距离标志、专用道汇入信号灯、禁止超车标志，设计检测区和换道区。

3.根据权利要求2所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述检测区用于监测车辆速度和位置信息，以支持于自动驾驶车辆换道交通信号控制方案的确定；所述换道区用于向自动驾驶车辆传输交通信号控制和是否可换道指令，长度为：其中，lh为缓冲距离，n为变换车道的次数，v0为车辆到达换道区的速度，t0为车辆完成一次换道所需时间；在换道区尾端设有交通信号灯，当信号为绿灯时自动驾驶车辆被允许换道至专用道，当信号为红灯时自动驾驶车辆被禁止换道至专用道。

4.根据权利要求1所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述深度

5.根据权利要求1所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述搭建强化学习模型，具体包括：

6.根据权利要求1所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述强化学习模型基于贪心策略进行动作选择，在每次迭代时产生随机数，若随机数小于阈值ε则采取随机探索策略，若随机数大于ε则根据Q表选择使得Q值最大的动作。

7.根据权利要求1所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述基于CNN的智能体结构，包括两层卷积层、一层激励层、一层池化层、一层全连接层，输入状态空间矩阵，输出Q表；通过DQN算法以目标Q值和实际Q值之间的时序差分误差更新神经网络的权重参数。

8.根据权利要求7所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法，其特征在于，采用优先经验回放机制，训练强化学习模型，具体包括：

9.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-8任一项所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1-8任一项所述的基于DQN和CNN的高速公路自动驾驶专用道车辆汇入方法的步骤。

...

【技术特征摘要】

1.一种基于dqn和cnn的高速公路自动驾驶专用道车辆汇入方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于dqn和cnn的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述高速公路单向多车道场景中至少包括一个自动驾驶专用道和一个支持自动驾驶车辆和人工驾驶车辆混合行驶的混行车道；在路侧设置自动驾驶专用道入口距离标志、专用道汇入信号灯、禁止超车标志，设计检测区和换道区。

3.根据权利要求2所述的基于dqn和cnn的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述检测区用于监测车辆速度和位置信息，以支持于自动驾驶车辆换道交通信号控制方案的确定；所述换道区用于向自动驾驶车辆传输交通信号控制和是否可换道指令，长度为：其中，lh为缓冲距离，n为变换车道的次数，v0为车辆到达换道区的速度，t0为车辆完成一次换道所需时间；在换道区尾端设有交通信号灯，当信号为绿灯时自动驾驶车辆被允许换道至专用道，当信号为红灯时自动驾驶车辆被禁止换道至专用道。

4.根据权利要求1所述的基于dqn和cnn的高速公路自动驾驶专用道车辆汇入方法，其特征在于，所述深度强化学习模型在仿真环境中进行训练，仿真环境中，人工驾驶车辆采用元胞自动机中的三相交通流模型kkw进行换道控制和跟驰控制；自动驾驶车辆采用kkw模型进行换道控制，采用自适应巡航控制acc或协同式自适应巡航控制cacc进行跟驰控制。

5.根据权利要求1所述的基...

【专利技术属性】
技术研发人员：张健，熊壮，姜涵，李炎，张玉杰，沈艾中，姚进强，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人