基于强化学习的车辆自主极限驾驶规划控制方法及系统技术方案

技术编号：33132581 阅读：32 留言：0更新日期：2022-04-17 00:52

本发明专利技术涉及一种基于强化学习的车辆自主极限驾驶规划控制方法及系统，其包括：将专业驾驶员的操纵数据作为专家示例数据，通过传统控制方法进行跟踪并得到基础操作控制；在已有的接近最优策略的专家示例基础上采用强化学习，得到调整操作控制；将所述基础操作控制和所述调整操作控制叠加后输出最能体现车辆性能极限程度的运动变量：纵向加速度和横向加速度；将所述纵向加速度和横向加速度作为中间控制变量，通过执行器跟踪控制调节前轮转角和驱制动力矩，以跟踪目标纵向加速度和横向加速度，实现极限驾驶规划控制。本发明专利技术能使压电陶瓷与保护筒之间紧密接触，避免中间介质对超声波传播的损耗，最大限度的提高超声波传播效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习的车辆自主极限驾驶规划控制方法及系统

[0001]本专利技术涉及一种车辆自动驾驶
，特别是关于一种基于强化学习的车辆自主极限驾驶规划控制方法及系统。

技术介绍

[0002]极限驾驶是指车辆轮胎附着力达到饱和的工况。在赛车比赛中，专业驾驶员通过精确控制使车辆始终处于极限边缘状态，充分发挥车辆的动力潜能，使得赛车发挥出最高速度，获得最小圈时。
[0003]赛车的性能极限是由安全机动范围来定义的。赛车的性能被发挥出多少，取决于赛车手能离极限边缘多近。赛车的机动范围除了受车辆本身部件性能的影响，还与当前车辆运动状态相关。因此车辆不止要持续极限驾驶，更重要的是处于怎样的极限状态。赛道地图的复杂多变性、对于极限驾驶的精确控制要求以及车辆非线性动力学特性，使得自主极限驾驶的规划控制是一个非常复杂、难度很高的任务。

技术实现思路

[0004]针对上述问题，本专利技术的目的是提供一种大功率超声波换能器，其能使压电陶瓷与保护筒之间紧密接触，避免中间介质对超声波传播的损耗，最大限度的提高超声波传播效率。<br/>[0005]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的车辆自主极限驾驶规划控制方法，其特征在于，包括：将专业驾驶员的操纵数据作为专家示例数据，通过传统控制方法进行跟踪并得到基础操作控制；在已有的接近最优策略的专家示例基础上采用强化学习，得到调整操作控制；将所述基础操作控制和所述调整操作控制叠加后输出最能体现车辆性能极限程度的运动变量：纵向加速度和横向加速度；将所述纵向加速度和横向加速度作为中间控制变量，通过执行器跟踪控制调节前轮转角和驱制动力矩，以跟踪目标纵向加速度和横向加速度，实现极限驾驶规划控制。2.如权利要求1所述基于强化学习的车辆自主极限驾驶规划控制方法，其特征在于，所述基础操作控制的获取方法，包括：通过所述专业驾驶员的操纵数据得到当前车辆的位置误差，所述专业驾驶员的操纵数据为在预先设定的赛道环境中一圈用时最短的数据，包括每一时刻车辆的位置坐标；根据所述当前车辆的位置误差得到车身坐标系下期望的纵向车速和横向车速，将所述车身坐标系下期望的纵向车速和横向车速与车辆的水平面运动学方程结合，得到车辆当前的纵向车速误差和横向车速误差；所述车辆当前的纵向车速误差和横向车速误差收敛到0时，将期望的纵向车速和横向车速求导，得到车辆跟随专业驾驶员的驾驶轨迹得到的期望纵向加速度和期望横向加速度，作为基础操作控制。3.如权利要求1所述基于强化学习的车辆自主极限驾驶规划控制方法，其特征在于，采用SAC强化学习，所述调整操作控制的获取方法，包括：将车辆运动状态以及当前状态下的基础操作控制输入状态空间；设置两种奖励函数，将两种奖励函数相加得到智能体奖励函数；第一种即时奖励R
i
，是在自主极限驾驶过程中每个决策步骤后或每一阶段后给予的即时奖励，以克服强化学习过程中奖励的稀疏性，加快智能体的学习速度；另一种终止状态奖励R
t
，是在每个训练回合结束后，基于车辆不同的状态模式给予的终止状态奖励；动作输出为基于专家示例的基础操作控制进行改进的调整操作控制。4.如权利要求3所述基于强化学习的车辆自主极限驾驶规划控制方法，其特征在于，所述即时奖励R
i
包括：路径跟踪项，用于鼓励车辆实际轨迹尽可能接近理想轨迹；速度项，以使车辆以最快的速度通过整个赛道；极限加速度项，用于表示当前车辆的性能极限范围，G
‑
G图的边界范围；加速度利用率项，用于表示车辆运动状态与当前极限性能的接近程度；各弯道阶段奖励项，将弯道种类划分为通向直道的弯道、直道过后的弯道和连接两个其他弯道的弯道，三种弯道的优先级依次减低，对应的奖励权重依次减小，根据三种弯道的奖励权重以及各...

【专利技术属性】
技术研发人员：侯晓慧，张俊智，何承坤，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人