一种基于模仿学习和强化学习的高速运动车辆控制方法技术

技术编号:31085363 阅读:23 留言:0更新日期:2021-12-01 12:37
本发明专利技术公开了一种基于模仿学习和强化学习的高速运动车辆控制方法,包括如下步骤:S1,对高速运动车辆进行动力学建模,并对驾驶员驾驶过程中的高速运动车辆的高速动力学参量以及道路中的交通信息进行特征提取,以采集相关数据,得到用于训练的数据集;S2,构建Actor网络和Critic网络,二者共享相同的前置特征提取网络,利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化,将高速运动学参量作为网络奖励函数的奖励因素进行计算,并对初始化后的Actor网络和Critic网络使用强化学习进一步优化;S3,利用步骤S2中经过初始化后的Actor网络和Critic网络,对车辆的期望速度及动作进行自主决策。车辆的期望速度及动作进行自主决策。车辆的期望速度及动作进行自主决策。

【技术实现步骤摘要】
一种基于模仿学习和强化学习的高速运动车辆控制方法


[0001]本专利技术涉及自动驾驶领域,尤其是涉及一种基于模仿学习和强化学习的高速运动车辆控制方法。

技术介绍

[0002]近年来,随着机器学习相关技术和配套设备的普及,自动驾驶技术也飞速发展。在智能化程度较高的自动驾驶模式下,驾驶员不需要控制车辆,而是由车辆进行环境感知从而进行决策及控制。目前的主流做法为:通过激光雷达、摄像头、GNSS等传感器计算出车辆位姿,结合高精度地图得到车辆周围的环境情况,并进行速度、方向的规划、决策。然而,目前主流的自动驾驶为了安全起见,速度控制仍保持在较低区间。
[0003]对于速度的规划决策,目前较多的方案为基于监督学习模型的和基于有限状态机的速度控制器。这两种方案分别需要人工的方式进行数据采集和状态机转移设置,存在主观性。且前者对于高速运动车辆的数据集收集存在困难,其方案仅使用了模仿学习的方式,只是一味模仿人类驾驶员的驾驶规则,缺乏自主探索的能力;后者则全靠人为给定规则,容易出现人为考虑不全面的情况,更没有自主探索的能力。对于高速移动车辆,上述的现有技术本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于模仿学习和强化学习的高速运动车辆控制方法,其特征在于,包括如下步骤:S1,对高速运动车辆进行动力学建模,并对驾驶员驾驶过程中的高速运动车辆的高速动力学参量以及道路中的交通信息进行特征提取,以采集相关数据,得到用于训练的数据集;S2,构建Actor网络和Critic网络,二者共享相同的前置特征提取网络,利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化,初始化时将高速运动学参量作为网络奖励函数的奖励因素进行计算,并对初始化后的Actor网络和Critic网络使用强化学习进一步优化;S3,利用步骤S2中经过初始化后的Actor网络,对高速运动状态下车辆的期望速度及动作进行自主决策。2.根据权利要求1所述的基于模仿学习和强化学习的高速运动车辆控制方法,其特征在于,步骤S1中,采集并计算获取的高速运动车辆的高速动力学参量包括车辆的中心速度v、车辆的前轮滑移力F
F
与后轮滑移力F
R
、车辆的漂移角变化率对高速运动车辆进行动力学建模,并计算上述数据的具体方法如下:分别以车辆的横向及纵向为X轴及Y轴建立坐标系;以θ表示速度偏航角,即车辆中心速度v与X轴的夹角,其中v为车辆在后轴中心上的线速度,并以表示速度偏航角变化率;以β表示车辆全局滑移角,此参数表示车辆所有轮胎的抓地力合力与轮毂对轮胎作用的侧向力的夹角,β
F
、β
R
分别为前轮及后轮的滑移角,前轮滑移速度为后轮滑移速度为β
F
、β
R
的计算方式如下式所示:的计算方式如下式所示:其中a为车辆前轴中心到车辆重心的距离、b为车辆后轴中心到车辆重心的距离、δ
F
为前轮转向角;进一步地,车辆的前轮滑移力F
F
与后轮滑移力F
R
其表达式如下式所示:F
F
=C
F
β
F
F
R
=C
R
β
R
其中C
F
、C
R
为转弯刚度参数,此参数与车辆模型与道路模型密切相关;进一步地,全局漂移角变化率的表达式如下,式中m表示车辆质量:
3.根据权利要求2所述的基于模仿学习和强化学习的高速运动车辆控制方法,其特征在于,步骤S1中,对于道路中的交通信息,建立交通信息图,并对交通信息图进行数据增强处理;所述交通信息图中反映有背景车辆位置信息,背景非机动车、行人、障碍物的位置信息,红灯/黄灯信息,绿灯信息,范围内的可行驶区域,范围内的车道边线及路径引导点;所述交通信息图与车辆的中心速度v、车辆的前轮滑移力F
F
、后轮滑移力F
R
及车辆的漂移角变化率一起,作为用于训练的数据集。4.根据权利要求3所述的基于模仿学习和强化学习的高速运动车辆控制方法,其特征在于,步骤S2中,利用步骤S1中得到的数据集使用模仿学习对Actor网络和Critic网络分别进行初始化时,具体包括如下步骤:S2.1,利用步骤S1中得到的数据集,使用模仿学习初始化端到端的Actor网络,使得Actor网络学习到人类驾驶员的基本驾驶策略;S2.2,使用初始化后的Actor网络控制车辆,使用环境反馈结合打分规则在共用并冻结前置特征提取网络的前提下初始化Critic网络。5.根据权利要求4所述的基于模仿学习和强化学习的高速运动车辆控制方法,其特征在于,步骤S2.1中,采用加入TSM时间移位模块的ResNet18主干特征提取网络对交通信息图进行特征提取;通过全连接层输出车辆的前轮滑移力F
F
及后轮滑移力F
R
特征;通过LSTM神经网络对中心速度v、车辆漂移角变化率进行包含时序的特征提取,然后通过全连接层输出特征。6.根据权利要求5所述的基于模仿学习和强化学习的高速运动...

【专利技术属性】
技术研发人员:肖力魏雨飞龚文治王卓
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1