一种基于端到端的深度强化学习换道决策方法和装置制造方法及图纸

技术编号：31927413 阅读：17 留言：0更新日期：2022-01-15 13:12

本发明专利技术公开一种基于端到端的深度强化学习换道决策方法和装置，初始化深度强化学习网络；将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据；根据所述训练数据训练深度强化学习网络，得到换道决策模型，所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系；根据自动驾驶车辆的当前环境，通过所述换道决模型进行正确安全的换道决策。本发明专利技术的技术方案，针对自动驾驶车辆在实际道路上的换道行为存在的问题，有效防止了模块之间的误差传递与积累，使得自动驾驶车辆可根据图像特征与换道决策形成映射关系。形成映射关系。形成映射关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于端到端的深度强化学习换道决策方法和装置

[0001]本专利技术属于自动驾驶
，尤其涉及一种基于端到端的深度强化学习换道决策方法和装置。

技术介绍

[0002]换道问题是自动驾驶领域中一个基础且关键的问题，是一项艰巨的任务，自动驾驶车辆需要警惕地观察其自身车道前方车辆和旁边车道上的周围车辆，并根据这些相关车辆所表现出的潜在对抗性或合作反应采取适当的行动。为了实现高级自动化且安全的换道驾驶，自动驾驶车辆就需要在复杂场景下学习做出正确合理的决策并控制其移动。
[0003]现有的自动驾驶换道决策方法主要分为三类：基于规则的换道决策方法、基于机器学习的换道决策方法以及基于强化学习的换道决策方法。
[0004]基于规则的换道决策方法，例如根据当前周围车辆的距离及车速，预定义一些换道规则来建立模型，这些方法多数引入一个虚拟换道轨迹或一系列的路点，以便换道时，自动驾驶车辆可以随轨迹行驶。它们的共同限制是在动态情况和不同驾驶风格下，计划轨迹缺乏灵活性。此外，虽然它在预先定义的情况下或在模型范围内可能工作得相对较好，但在处理超出定义范围的情况时，效果很不理想。
[0005]基于机器学习的换道决策方法，例如基于支持向量机的换道决策方法，在对大量样本数据进行适当训练后，可以在没有明确具体的设计和编程规则的情况下，能处理复杂场景中不可预见的情况。然而，在缺乏训练有素的模型和适当的策略设计时，自动驾驶车辆的行为仍然不够理想。
[0006]基于强化学习的换道决策方法，例如基于Q
‑
l...

【技术保护点】

【技术特征摘要】
1.一种基于端到端的深度强化学习换道决策方法，其特征在于，包括以下步骤：步骤1、初始化深度强化学习网络；步骤2、将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据；步骤3、根据所述训练数据训练深度强化学习网络，得到换道决策模型，所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系；步骤4、根据自动驾驶车辆的当前环境，通过所述换道决模型进行正确安全的换道决策。2.如权利要求1所述的基于端到端的深度强化学习换道决策方法，其特征在于，步骤1中，初始化深度强化学习网络包括：定义并设置状态空间、奖励函数、记忆表以及动作空间。3.如权利要求2所述的基于端到端的深度强化学习换道决策方法，其特征在于，步骤2包括以下步骤：步骤2.1、对自动驾驶车辆前方相机采集的图像信息进行预处理，将图像信息转化成大小为648*480*3的数组数据，来符合深度强化学习网络的输入；步骤2.2、将采集数据输入深度强化学习网络，得到车辆动作的第一奖励值，所述车辆动作包含左换道、右换道和保持车道；步骤2.3、将采集数据、最高第一奖励值、第一奖励值最高的车辆动作以及执行车辆动作后的新状态存入记忆表中；然后判断记忆表是否装满，如果未装满则返回步骤2.1，如果装满则进入步骤3。4.如权利要求3所述的基于端到端的深度强化学习换道决策方法，其特征在于，步骤3包括以下步骤：步骤3.1、将装满后记忆表中每条记录中的数据输入到深度强化学习网络，获得车辆动作的第二奖励值；步骤3.2，根据第二奖励值计算其对应的损失值；步骤3.3，根据所述损失值调整深度强化学习网络；若记忆表中仍存在未被使用的数据，则跳转到步骤3.1继续训练；若记忆表中的数据都已被使用，未终止则跳转到步骤2.1进行新一轮训练，若终止，则完成训练。5.如权利要求1至4任意一个所述的基于端到端的深度强化学习换道决策方法，其特征在于，步骤2中，深度强化学习网络为Xception模型与CBAM注意力机制以及两层全连接层组成的DQN神经网络。6.如权利要求5所述的基于端到端的深度强化学习换道决策方法，其特征在于，步骤1中，状态空间大小为[640，480，3]；动作空间大小为3，分别为左换道、右换道以及保持车道三个动作；记忆表大小为2000，用于存储当...

【专利技术属性】
技术研发人员：鲍泓，徐歆恺，付一豪，王晨曦，宁晴，潘卫国，徐成，
申请(专利权)人：北京联合大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人