一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法技术

技术编号：30136573 阅读：14 留言：0更新日期：2021-09-23 14:47

本发明专利技术公开了一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法，利用神经网络动力学模型和车辆平面映射关系来模拟自动驾驶汽车在区域分割鸟瞰图上实时的运动变化。采用神经网络作为动力学模型更加贴合实车的动力学特性，减小了普通单轨模型误差较大的问题。利用区域分割鸟瞰图Φ作为自动驾驶强化学习训练的状态量，减小了仿真训练和实车二次训练的状态量之间的差异，避免了仿真训练与实车二次训练之间因状态量差异带来的冲突；设计了一种贴合真实场景的强化学习自动驾驶策略仿真训练框架，预训练的强化学习网络RL

全部详细技术资料下载

【技术实现步骤摘要】
一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法

[0001]本专利技术属于智能车自动驾驶领域，涉及一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法。

技术介绍

[0002]强化学习为一种快速发展的机器学习方法，强调基于当前的环境状态，选择一个动作使得该动作能够取得最大化的预期奖励。它是一种试错的学习方式，学习过程中通过奖励的刺激，逐渐能够做出最大化预期奖励的动作。
[0003]传统的自动驾驶控制方法很难兼顾复杂的环境而做出正确的决策和动作，已经渐渐不能满足自动驾驶的决策和控制要求。随着人工智能算法的发展以及车载硬件的不断提高，解决该问题的较好的方法为通过强化学习的方式，训练一组端到端的神经网络用来映射当前的环境状态和动作输出。通过不断的训练，强化学习的智能体最终能超越经验驾驶员，在各种复杂的环境下都能做出正确的行为动作。但一般无模型的强化学习方式存在前期训练试错次数较多的问题。在实际的自动驾驶中，需要避免碰撞等灾难性的情况发生，并且尽可能的较少无目的的行为动作。因此，直接的将强化学习方式用在实车的自动驾驶中代价是昂贵的且不切实际的。目前，如何在自动驾驶中体现强化学习的优势，在避免重大错误动作下，将强化学习合理的应用到自动驾驶中成为当前亟需解决的重要难题。

技术实现思路

[0004]为了解决上述技术问题，本专利技术提供了一种基于车辆神经网络动力学模型的强化学习自动驾驶训练方法，包括设计四部分：自动驾驶汽车动力学模型训练部分、场景鸟瞰图采集部分、强化学习自...

【技术保护点】

【技术特征摘要】
1.一种智能车辆神经网络动力学模型，其特征在于，所述神经网络动力学模型为长短时记忆网络(LSTM)，该网络模型的输入为4个连续间隔为0.01秒的状态向量<r,v,u,δ,F>，其中r为横摆角速度，v为纵向速度，u为横向速度，δ为方向盘转角，F为前轮纵向力，输出为当前时刻的横摆角加速度和侧向加速度网络结构为两层节点数为24、cell为4的LSTM：2.根据权利要求1所述的一种智能车辆神经网络动力学模型，其特征在于，所述LSTM网络的训练数据集为人工驾驶自动驾驶汽车采集的数据集，所述数据集是在直线行驶、弯道行驶、环形行驶、S形行驶和紧急避障行驶多种工况下采集的。3.一种智能车辆强化学习网络模型RL
‑
net，其特征在于，所述强化学习网络RL
‑
net的输入状态量为区域分割鸟瞰图Φ
t
和自动驾驶汽车的实时状态s
t
，所述实时状态s
t
为其中r
t
为横摆角速度，v
t
为纵向车速，u
t
为横向车速，为纵向加速度，为横向加速度，δ
t
为当前的方向盘转角；所述强化学习网络RL
‑
net的输出动作为刹车、油门a
acc
和方向盘动作a
steer
；所述强化学习网络RL
‑
net为双头输入网络：一头输入网络为卷积神经网络(CNN)，处理区域分割鸟瞰图Φ
t
，提取特征f1；另外一头为全连接神经网络(FC)，处理自动驾驶汽车的实时状态s
t
，提取特征f2；中间层网络对双头网络提取的特征f1和f2进行拼接合并。4.根据权利要求3所述的一种智能车辆强化学习网络模型RL
‑
net，其特征在于，所述区域分割鸟瞰图Φ
t
是尺寸为(256*256)的单通道图，其由采集多种场景下的交通场景环境得到，如停车场、多车道路况、十字路口、汇流口和环形交叉路口等场景下采集，大小规格为(0～255)
m*n
的RGB图片，设图片中自动驾驶汽车所在区域的像素点值为a，可行驶区域的像素点为b，其他障碍物和周边车辆所在区域的像素点为c，大小规格为{a,b,c}
m*n
。5.根据权利要求3所述的一种智能车辆强化学习网络模型RL
‑
net，其特征在于，下一时刻区域分割鸟瞰图Φ
t+1
由上一时刻区域分割鸟瞰图Φ
t
、自动驾驶汽车神经网络动力学模型和车辆在平面上的映射关系不断更新迭算得出，则t+1时刻，自动驾驶汽车在区域分割鸟瞰图上的位置为：所述车辆在平面上的映射关系具体如下：6.根据权利要求3所述的一种智能车辆强化学习网络模型RL
‑
net，其特征在于，所述全连接神经网络(FC)的网络结构为节点数为24的两层隐藏层全连接，提取的特征尺寸f2为(1*12)；所述卷积神经网络(CNN)提取的特征尺寸f1为(1*512)，具体结构如下：
输入层：尺寸为256*256，输出256*256；卷积层Conv1：尺寸为(3*3)*32、stride＝2，输出128*128*32；池化层Pool1：尺寸为(2*2)、stride＝2，输出为64*64*32；卷积层Conv2：尺寸为(3*3*32)*64，stride＝2，输出为32*32*64；池化层Pool2：尺寸为(2*2)，stride＝2，输出为16*16*64；卷积层Conv3：尺寸为(3*3*64)*128，stride＝2，输出为8*8*128；全连接层FC：尺寸为(8*8*128)*512，输出为1*512。7.一种智能车辆自动驾驶训练方法，其特征在于，包括如下步骤：S1、设计神经网络动力学模型及其训练；S2、采集场景鸟瞰图；S3、设计强化学习网络模型RL
‑
net及其训练；S4、实车二次训练。8.根据权利要求7所述的智能车辆自动驾驶训练方法，其特征在于，所述神经网络动力学模型为权利要求1
‑
2所述的模型；该模型的训练包括如下步骤：步骤1)人工驾驶采集自动驾驶汽车的数据集，数据集包括输入数据和标签；所述输入数据为前四个时刻的车辆特征(r
t
‑
4:t
‑1,v
t
‑
4:t
‑1,u
t
‑
4:t
‑1,δ
t
‑<...

【专利技术属性】
技术研发人员：蔡英凤，杨绍卿，滕成龙，王海，熊晓夏，孙晓东，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人