一种基于端到端的深度强化学习换道决策方法和装置制造方法及图纸

技术编号:31927413 阅读:17 留言:0更新日期:2022-01-15 13:12
本发明专利技术公开一种基于端到端的深度强化学习换道决策方法和装置,初始化深度强化学习网络;将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。本发明专利技术的技术方案,针对自动驾驶车辆在实际道路上的换道行为存在的问题,有效防止了模块之间的误差传递与积累,使得自动驾驶车辆可根据图像特征与换道决策形成映射关系。形成映射关系。形成映射关系。

【技术实现步骤摘要】
一种基于端到端的深度强化学习换道决策方法和装置


[0001]本专利技术属于自动驾驶
,尤其涉及一种基于端到端的深度强化学习换道决策方法和装置。

技术介绍

[0002]换道问题是自动驾驶领域中一个基础且关键的问题,是一项艰巨的任务,自动驾驶车辆需要警惕地观察其自身车道前方车辆和旁边车道上的周围车辆,并根据这些相关车辆所表现出的潜在对抗性或合作反应采取适当的行动。为了实现高级自动化且安全的换道驾驶,自动驾驶车辆就需要在复杂场景下学习做出正确合理的决策并控制其移动。
[0003]现有的自动驾驶换道决策方法主要分为三类:基于规则的换道决策方法、基于机器学习的换道决策方法以及基于强化学习的换道决策方法。
[0004]基于规则的换道决策方法,例如根据当前周围车辆的距离及车速,预定义一些换道规则来建立模型,这些方法多数引入一个虚拟换道轨迹或一系列的路点,以便换道时,自动驾驶车辆可以随轨迹行驶。它们的共同限制是在动态情况和不同驾驶风格下,计划轨迹缺乏灵活性。此外,虽然它在预先定义的情况下或在模型范围内可能工作得相对较好,但在处理超出定义范围的情况时,效果很不理想。
[0005]基于机器学习的换道决策方法,例如基于支持向量机的换道决策方法,在对大量样本数据进行适当训练后,可以在没有明确具体的设计和编程规则的情况下,能处理复杂场景中不可预见的情况。然而,在缺乏训练有素的模型和适当的策略设计时,自动驾驶车辆的行为仍然不够理想。
[0006]基于强化学习的换道决策方法,例如基于Q

learning的换道决策方法,它有能力从试验和错误中学习,并为长期目标寻求最佳策略,具有更好的鲁棒性和安全性。但是,基于强化学习的换道决策算法难以处理高维度的输入数据,状态空间越大,算法构建就越复杂。

技术实现思路

[0007]基于规则的换道决策方法在预先定义的情况下或在模型范围内可能工作得相对较好,但在处理超出定义范围的情况方面远远不够,而基于机器学习的换道决策方法在没有训练有素的模型和适当的策略设计,其最终效果可能难以让人满意。为了解决以上方法中存在的问题,同时也因为雷达设备的高成本问题,本专利技术使用低成本的单目相机作为输入设备,设计了一种端到端的基于注意力机制的深度强化学习网络,并以此为基础实现了一种基于端到端的深度强化学习换道决策方法和装置
[0008]为实现上述目的,本专利技术采用如下的技术方案
[0009]一种基于端到端的深度强化学习换道决策方法,包括以下步骤:
[0010]步骤1、初始化深度强化学习网络;
[0011]步骤2、将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以
得到训练数据;
[0012]步骤3、根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;
[0013]步骤4、根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。
[0014]作为优选,步骤1中,初始化深度强化学习网络包括:定义并设置状态空间、奖励函数、记忆表以及动作空间。
[0015]作为优选,步骤2包括以下步骤:
[0016]步骤2.1、对自动驾驶车辆前方相机采集的图像信息进行预处理,获得符合要求的采集数据;
[0017]步骤2.2、将采集数据输入深度强化学习网络,得到车辆动作的第一奖励值,所述车辆动作包含左换道、右换道和保持车道;
[0018]步骤2.3、将采集数据、最高第一奖励值、第一奖励值最高的车辆动作以及执行车辆动作后的新状态存入记忆表中;然后判断记忆表是否装满,如果未装满则返回步骤2.1,如果装满则进入步骤3。
[0019]作为优选,步骤3包括以下步骤:
[0020]步骤3.1、将装满后记忆表中每条记录中的数据输入到深度强化学习网络,获得车辆动作的第二奖励值;
[0021]步骤3.2,根据第二奖励值计算其对应的损失值;
[0022]步骤3.3,根据所述损失值调整深度强化学习网络;若记忆表中仍存在未被使用的数据,则跳转到步骤3.1继续训练;若记忆表中的数据都已被使用,未终止则跳转到步骤2.1进行新一轮训练,若终止,则完成训练。
[0023]作为优选,步骤2中,深度强化学习网络为Xception模型与CBAM(Convolutional Block Attention Module)注意力机制以及两层全连接层组成的DQN(deep Q net work)神经网络。
[0024]作为优选,步骤1中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当前状态、下一时刻状态、选取车辆动作以及车辆动作的奖励值;奖励函数为基于保持车道动作的第一奖励函数,所述第一奖励函数取决于当前车辆与前方车辆的距离以及速度差,或者奖励函数为基于左右换道的第二奖励函数,第二奖励函数取决于目标车道上的目标车辆的距离与车速。
[0025]作为优选,步骤2中,DQN神经网络的输入为当前状态值,输出的为预测的各车辆动作价值量,在每一个时间步,根据各个动作价值量,通过贪婪算法e

greedy选择动作,根据选择的动作得到奖励值以及下一个时刻状态,其中下一时刻状态指车辆执行动作后的新状态。
[0026]作为优选,步骤3中,深度强化学习网络的损失函数定义如下:
[0027]L=E[r+γmaxQ(s',a')

Q(s,a)]2[0028]其中,s与a为当前时刻的状态和动作,s'与a'为下一时刻的状态和动作,γ为学习率,r为奖励值,E为求数学期望,Q为网络的输出值即输入动作s和a来获得网络输出值Q。
[0029]本专利技术还公开一种基于端到端的深度强化学习换道决策装置,包括,
[0030]初始化模块,用于初始化深度强化学习网络;
[0031]获取模块,用于将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;
[0032]训练模块,用于根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;
[0033]决策模块,用于根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。
[0034]作为优选,深度强化学习网络包括:定义并设置状态空间、奖励函数、记忆表以及动作空间;其中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当前状态、下一时刻状态、选取车辆动作以及车辆动作的奖励值;奖励函数为基于保持车道动作的第一奖励函数,所述第一奖励函数取决于当前车辆与前方车辆的距离以及速度差,或者奖励函数为基于左右换道的第二奖励函数,第二奖励函数取决于目标车道上的目标车辆的距离与车速。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于端到端的深度强化学习换道决策方法,其特征在于,包括以下步骤:步骤1、初始化深度强化学习网络;步骤2、将自动驾驶车辆前方相机采集图像信息输入到所述深度强化学习网络以得到训练数据;步骤3、根据所述训练数据训练深度强化学习网络,得到换道决策模型,所述换道决策模型用于建立所述图像信息与换道决策的直接连贯映射关系;步骤4、根据自动驾驶车辆的当前环境,通过所述换道决模型进行正确安全的换道决策。2.如权利要求1所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤1中,初始化深度强化学习网络包括:定义并设置状态空间、奖励函数、记忆表以及动作空间。3.如权利要求2所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤2包括以下步骤:步骤2.1、对自动驾驶车辆前方相机采集的图像信息进行预处理,将图像信息转化成大小为648*480*3的数组数据,来符合深度强化学习网络的输入;步骤2.2、将采集数据输入深度强化学习网络,得到车辆动作的第一奖励值,所述车辆动作包含左换道、右换道和保持车道;步骤2.3、将采集数据、最高第一奖励值、第一奖励值最高的车辆动作以及执行车辆动作后的新状态存入记忆表中;然后判断记忆表是否装满,如果未装满则返回步骤2.1,如果装满则进入步骤3。4.如权利要求3所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤3包括以下步骤:步骤3.1、将装满后记忆表中每条记录中的数据输入到深度强化学习网络,获得车辆动作的第二奖励值;步骤3.2,根据第二奖励值计算其对应的损失值;步骤3.3,根据所述损失值调整深度强化学习网络;若记忆表中仍存在未被使用的数据,则跳转到步骤3.1继续训练;若记忆表中的数据都已被使用,未终止则跳转到步骤2.1进行新一轮训练,若终止,则完成训练。5.如权利要求1至4任意一个所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤2中,深度强化学习网络为Xception模型与CBAM注意力机制以及两层全连接层组成的DQN神经网络。6.如权利要求5所述的基于端到端的深度强化学习换道决策方法,其特征在于,步骤1中,状态空间大小为[640,480,3];动作空间大小为3,分别为左换道、右换道以及保持车道三个动作;记忆表大小为2000,用于存储当...

【专利技术属性】
技术研发人员:鲍泓徐歆恺付一豪王晨曦宁晴潘卫国徐成
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1