当前位置: 首页 > 专利查询>江苏大学专利>正文

一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法技术

技术编号:30136573 阅读:14 留言:0更新日期:2021-09-23 14:47
本发明专利技术公开了一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法,利用神经网络动力学模型和车辆平面映射关系来模拟自动驾驶汽车在区域分割鸟瞰图上实时的运动变化。采用神经网络作为动力学模型更加贴合实车的动力学特性,减小了普通单轨模型误差较大的问题。利用区域分割鸟瞰图Φ作为自动驾驶强化学习训练的状态量,减小了仿真训练和实车二次训练的状态量之间的差异,避免了仿真训练与实车二次训练之间因状态量差异带来的冲突;设计了一种贴合真实场景的强化学习自动驾驶策略仿真训练框架,预训练的强化学习网络RL

【技术实现步骤摘要】
一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法


[0001]本专利技术属于智能车自动驾驶领域,涉及一种智能车辆神经网络动力学模型、强化学习网络模型及其自动驾驶训练方法。

技术介绍

[0002]强化学习为一种快速发展的机器学习方法,强调基于当前的环境状态,选择一个动作使得该动作能够取得最大化的预期奖励。它是一种试错的学习方式,学习过程中通过奖励的刺激,逐渐能够做出最大化预期奖励的动作。
[0003]传统的自动驾驶控制方法很难兼顾复杂的环境而做出正确的决策和动作,已经渐渐不能满足自动驾驶的决策和控制要求。随着人工智能算法的发展以及车载硬件的不断提高,解决该问题的较好的方法为通过强化学习的方式,训练一组端到端的神经网络用来映射当前的环境状态和动作输出。通过不断的训练,强化学习的智能体最终能超越经验驾驶员,在各种复杂的环境下都能做出正确的行为动作。但一般无模型的强化学习方式存在前期训练试错次数较多的问题。在实际的自动驾驶中,需要避免碰撞等灾难性的情况发生,并且尽可能的较少无目的的行为动作。因此,直接的将强化学习方式用在实车的自动驾驶中代价是昂贵的且不切实际的。目前,如何在自动驾驶中体现强化学习的优势,在避免重大错误动作下,将强化学习合理的应用到自动驾驶中成为当前亟需解决的重要难题。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一种基于车辆神经网络动力学模型的强化学习自动驾驶训练方法,包括设计四部分:自动驾驶汽车动力学模型训练部分、场景鸟瞰图采集部分、强化学习自动驾驶策略仿真训练部分和实车二次训练部分。具体包括以下内容:
[0005]自动驾驶汽车动力学模型训练部分,目的在于利用神经网络动力学模型模拟并替代实际的自动驾驶汽车。
[0006]进一步,所述神经网络动力学模型为长短时记忆网络(LSTM),本专利技术设计的长短时记忆网络(LSTM)能更好的提取历史信息,更好的拟合自动驾驶汽车的动力学特性。所述长短时记忆网络(LSTM)的输入为4个连续间隔为0.01秒的状态向量<r
t
,v
t
,u
t

t
,F
t
>,其中r
t
为横摆角速度,v
t
为纵向速度,u
t
为横向速度,δ
t
为方向盘转角,F
t
为前轮纵向力,下标t

4:t

1表明状态为过去连续四时刻的状态,网络结构为两层节点数为24,cell为4的LSTM;输出为当前时刻的横摆角加速度和横向加速度具体如下:
[0007][0008]进一步,训练LSTM网络的数据集为人工驾驶自动驾驶汽车采集的数据集,所述数据集是在直线行驶、弯道行驶、环形行驶、S形行驶和紧急避障行驶多种工况下采集的。多种工况下采集的数据集可以更好的泛化神经网络动力学模型。
[0009]场景鸟瞰图采集部分,目的在于采集多种场景下的交通场景环境,为强化学习自
动驾驶仿真训练提供训练平台。
[0010]进一步,所述鸟瞰图在停车场、多车道路况、十字路口、汇流口和环形交叉路口等场景下采集,大小规格为(0~255)
m*n
的RGB图片;
[0011]进一步,将采集的鸟瞰图进行区域划分,自动驾驶汽车所在区域的像素点值为a,可行驶区域的像素点为b,其他障碍物和周边车辆所在区域的像素点为c,大小规格为{a,b,c}
m*n

[0012]强化学习自动驾驶策略仿真训练目的在于初步训练强化学习网络RL

net。
[0013]进一步,所述强化学习网络RL

net的输入状态量为区域分割鸟瞰图Φ
t
和自动驾驶汽车的实时状态s
t
,所述实时状态s
t
为其中r
t
为横摆角速度,v
t
为纵向车速,u
t
为横向车速,为纵向加速度,为横向加速度,δ
t
为当前的方向盘转角;
[0014]进一步,所述强化学习网络RL

net的输出动作为刹车、油门a
acc
和方向盘动作a
steer

[0015]进一步,下一时刻区域分割鸟瞰图Φ
t+1
由上一时刻区域分割鸟瞰图Φ
t
、自动驾驶汽车神经网络动力学模型和车辆在平面上的映射关系不断更新迭算得出。t+1时刻,自动驾驶汽车在区域分割鸟瞰图上的位置为:
[0016][0017]进一步,所述车辆在平面上的映射关系具体如下:
[0018][0019]进一步,所述强化学习网络RL

net为双头输入网络。一头输入网络为卷积神经网络(CNN),处理区域分割鸟瞰图Φ
t
,提取特征f1;另外一头为全连接神经网络(FC),处理自动驾驶汽车的实时状态s
t
,提取特征f2;中间层网络对双头网络提取的特征f1和f2进行拼接合并。所述区域分割鸟瞰图Φ
t
是尺寸为(256*256)的单通道图,所述全连接神经网络(FC)的网络结构为节点数为24的两层隐藏层全连接,提取的特征尺寸f2为(1*12);所述卷积神经网络(CNN)的具体结构如下,提取的特征尺寸f1为(1*512)。
[0020]名称尺寸输出输入层(256*256)256*256卷积层Conv1(3*3)*32,stride=2128*128*32池化层Pool1(2*2),stride=264*64*32卷积层Conv2(3*3*32)*64,stride=232*32*64池化层Pool2(2*2),stride=216*16*64卷积层Conv3(3*3*64)*128,stride=28*8*128全连接层FC(8*8*128)*5121*512
[0021]实车二次训练的目的在于进一步优化强化学习网络RL

net,提高强化学习智能体
对更多场景的泛化能力。
[0022]进一步,实车二次训练所训练的强化学习网络RL

net为仿真训练预训练之后的强化学习网络RL

net;
[0023]进一步,实时采集场景环境并处理成区域分割鸟瞰图Φ
t
,同时收集自动驾驶汽车的实时状态s
t
作为强化学习网络的状态量,区域分割鸟瞰图Φ
t
和自动驾驶汽车的实时状态s
t
由实车运动不断更新获得。
[0024]本专利技术的有益效果:
[0025](1)本专利技术设计了一种贴合真实场景的强化学习自动驾驶策略仿真训练框架,预训练的强化学习网络RL

net可以较自然的迁移到实车的二次训练中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能车辆神经网络动力学模型,其特征在于,所述神经网络动力学模型为长短时记忆网络(LSTM),该网络模型的输入为4个连续间隔为0.01秒的状态向量<r,v,u,δ,F>,其中r为横摆角速度,v为纵向速度,u为横向速度,δ为方向盘转角,F为前轮纵向力,输出为当前时刻的横摆角加速度和侧向加速度网络结构为两层节点数为24、cell为4的LSTM:2.根据权利要求1所述的一种智能车辆神经网络动力学模型,其特征在于,所述LSTM网络的训练数据集为人工驾驶自动驾驶汽车采集的数据集,所述数据集是在直线行驶、弯道行驶、环形行驶、S形行驶和紧急避障行驶多种工况下采集的。3.一种智能车辆强化学习网络模型RL

net,其特征在于,所述强化学习网络RL

net的输入状态量为区域分割鸟瞰图Φ
t
和自动驾驶汽车的实时状态s
t
,所述实时状态s
t
为其中r
t
为横摆角速度,v
t
为纵向车速,u
t
为横向车速,为纵向加速度,为横向加速度,δ
t
为当前的方向盘转角;所述强化学习网络RL

net的输出动作为刹车、油门a
acc
和方向盘动作a
steer
;所述强化学习网络RL

net为双头输入网络:一头输入网络为卷积神经网络(CNN),处理区域分割鸟瞰图Φ
t
,提取特征f1;另外一头为全连接神经网络(FC),处理自动驾驶汽车的实时状态s
t
,提取特征f2;中间层网络对双头网络提取的特征f1和f2进行拼接合并。4.根据权利要求3所述的一种智能车辆强化学习网络模型RL

net,其特征在于,所述区域分割鸟瞰图Φ
t
是尺寸为(256*256)的单通道图,其由采集多种场景下的交通场景环境得到,如停车场、多车道路况、十字路口、汇流口和环形交叉路口等场景下采集,大小规格为(0~255)
m*n
的RGB图片,设图片中自动驾驶汽车所在区域的像素点值为a,可行驶区域的像素点为b,其他障碍物和周边车辆所在区域的像素点为c,大小规格为{a,b,c}
m*n
。5.根据权利要求3所述的一种智能车辆强化学习网络模型RL

net,其特征在于,下一时刻区域分割鸟瞰图Φ
t+1
由上一时刻区域分割鸟瞰图Φ
t
、自动驾驶汽车神经网络动力学模型和车辆在平面上的映射关系不断更新迭算得出,则t+1时刻,自动驾驶汽车在区域分割鸟瞰图上的位置为:所述车辆在平面上的映射关系具体如下:6.根据权利要求3所述的一种智能车辆强化学习网络模型RL

net,其特征在于,所述全连接神经网络(FC)的网络结构为节点数为24的两层隐藏层全连接,提取的特征尺寸f2为(1*12);所述卷积神经网络(CNN)提取的特征尺寸f1为(1*512),具体结构如下:
输入层:尺寸为256*256,输出256*256;卷积层Conv1:尺寸为(3*3)*32、stride=2,输出128*128*32;池化层Pool1:尺寸为(2*2)、stride=2,输出为64*64*32;卷积层Conv2:尺寸为(3*3*32)*64,stride=2,输出为32*32*64;池化层Pool2:尺寸为(2*2),stride=2,输出为16*16*64;卷积层Conv3:尺寸为(3*3*64)*128,stride=2,输出为8*8*128;全连接层FC:尺寸为(8*8*128)*512,输出为1*512。7.一种智能车辆自动驾驶训练方法,其特征在于,包括如下步骤:S1、设计神经网络动力学模型及其训练;S2、采集场景鸟瞰图;S3、设计强化学习网络模型RL

net及其训练;S4、实车二次训练。8.根据权利要求7所述的智能车辆自动驾驶训练方法,其特征在于,所述神经网络动力学模型为权利要求1

2所述的模型;该模型的训练包括如下步骤:步骤1)人工驾驶采集自动驾驶汽车的数据集,数据集包括输入数据和标签;所述输入数据为前四个时刻的车辆特征(r
t

4:t
‑1,v
t

4:t
‑1,u
t

4:t
‑1,δ
t
‑<...

【专利技术属性】
技术研发人员:蔡英凤杨绍卿滕成龙王海熊晓夏孙晓东
申请(专利权)人:江苏大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1