本发明专利技术涉及一种基于强化学习的车辆自主极限驾驶规划控制方法及系统,其包括:将专业驾驶员的操纵数据作为专家示例数据,通过传统控制方法进行跟踪并得到基础操作控制;在已有的接近最优策略的专家示例基础上采用强化学习,得到调整操作控制;将所述基础操作控制和所述调整操作控制叠加后输出最能体现车辆性能极限程度的运动变量:纵向加速度和横向加速度;将所述纵向加速度和横向加速度作为中间控制变量,通过执行器跟踪控制调节前轮转角和驱制动力矩,以跟踪目标纵向加速度和横向加速度,实现极限驾驶规划控制。本发明专利技术能使压电陶瓷与保护筒之间紧密接触,避免中间介质对超声波传播的损耗,最大限度的提高超声波传播效率。率。率。
【技术实现步骤摘要】
基于强化学习的车辆自主极限驾驶规划控制方法及系统
[0001]本专利技术涉及一种车辆自动驾驶
,特别是关于一种基于强化学习的车辆自主极限驾驶规划控制方法及系统。
技术介绍
[0002]极限驾驶是指车辆轮胎附着力达到饱和的工况。在赛车比赛中,专业驾驶员通过精确控制使车辆始终处于极限边缘状态,充分发挥车辆的动力潜能,使得赛车发挥出最高速度,获得最小圈时。
[0003]赛车的性能极限是由安全机动范围来定义的。赛车的性能被发挥出多少,取决于赛车手能离极限边缘多近。赛车的机动范围除了受车辆本身部件性能的影响,还与当前车辆运动状态相关。因此车辆不止要持续极限驾驶,更重要的是处于怎样的极限状态。赛道地图的复杂多变性、对于极限驾驶的精确控制要求以及车辆非线性动力学特性,使得自主极限驾驶的规划控制是一个非常复杂、难度很高的任务。
技术实现思路
[0004]针对上述问题,本专利技术的目的是提供一种大功率超声波换能器,其能使压电陶瓷与保护筒之间紧密接触,避免中间介质对超声波传播的损耗,最大限度的提高超声波传播效率。
[0005]为实现上述目的,本专利技术采取以下技术方案:一种基于强化学习的车辆自主极限驾驶规划控制方法,其包括:将专业驾驶员的操纵数据作为专家示例数据,通过传统控制方法进行跟踪并得到基础操作控制;在已有的接近最优策略的专家示例基础上采用强化学习,得到调整操作控制;将所述基础操作控制和所述调整操作控制叠加后输出最能体现车辆性能极限程度的运动变量:纵向加速度和横向加速度;将所述纵向加速度和横向加速度作为中间控制变量,通过执行器跟踪控制调节前轮转角和驱制动力矩,以跟踪目标纵向加速度和横向加速度,实现极限驾驶规划控制。
[0006]进一步,所述基础操作控制的获取方法,包括:通过所述专业驾驶员的操纵数据得到当前车辆的位置误差,所述专业驾驶员的操纵数据为在预先设定的赛道环境中一圈用时最短的数据,包括每一时刻车辆的位置坐标;根据所述当前车辆的位置误差得到车身坐标系下期望的纵向车速和横向车速,将所述车身坐标系下期望的纵向车速和横向车速与车辆的水平面运动学方程结合,得到车辆当前的纵向车速误差和横向车速误差;所述车辆当前的纵向车速误差和横向车速误差收敛到0时,将期望的纵向车速和横向车速求导,得到车辆跟随专业驾驶员的驾驶轨迹得到的期望纵向加速度和期望横向加速度,作为基础操作控制。
[0007]进一步,采用SAC强化学习,所述调整操作控制的获取方法,包括:将车辆运动状态以及当前状态下的基础操作控制输入状态空间;设置两种奖励函数,将两种奖励函数相加得到智能体奖励函数;第一种即时奖励R
i
,是在自主极限驾驶过程中每个决策步骤后或每
一阶段后给予的即时奖励,以克服强化学习过程中奖励的稀疏性,加快智能体的学习速度;另一种终止状态奖励R
t
,是在每个训练回合结束后,基于车辆不同的状态模式给予的终止状态奖励;动作输出为基于专家示例的基础操作控制进行改进的调整操作控制。
[0008]进一步,所述即时奖励R
i
包括:
[0009]路径跟踪项,用于鼓励车辆实际轨迹尽可能接近理想轨迹;
[0010]速度项,以使车辆以最快的速度通过整个赛道;
[0011]极限加速度项,用于表示当前车辆的性能极限范围,G
‑
G图的边界范围;
[0012]加速度利用率项,用于表示车辆运动状态与当前极限性能的接近程度;
[0013]各弯道阶段奖励项,将弯道种类划分为通向直道的弯道、直道过后的弯道和连接两个其他弯道的弯道,三种弯道的优先级依次减低,对应的奖励权重依次减小,根据三种弯道的奖励权重以及各弯道的入弯速度和出弯速度得到各弯道阶段奖励项。
[0014]进一步,所述G
‑
G图用于限定车辆在当前状态下的性能极限;所述基础操作控制和所述调整操作控制叠加后输出的纵向加速度和横向加速度由所述G
‑
G图限定;
[0015]所述G
‑
G图的形状及范围包括:轮胎
‑
路面附着系数、加减速性能限制、空气动力学和车辆载荷转移。
[0016]进一步,所述终止状态奖励R
t
,包括:
[0017][0018]其中,k8、k9为负常数,分别表示车辆发生侧翻和驶出赛道边界对应的奖励函数值;t
total
为该回合车辆驶过整圈赛道所用的时间,t
′
total
为专业驾驶员的操纵车辆驶过整圈赛道所用的时间,k
10
为负常数,表示整体圈时对应的权重系数。
[0019]进一步,所述执行器跟踪包括:
[0020]纵向加速度跟踪控制,将纵向加速度前馈控制下的目标驱动力矩与纵向加速度的反馈控制驱动力矩相加,得到最终发动机的期望输出力矩;
[0021]横向加速度跟踪控制,将横向加速度前馈控制下的前轮转角与横向加速度的反馈控制转角相加,得到最终期望的前轮转角。
[0022]一种基于强化学习的车辆自主极限驾驶规划控制系统,其包括:基础操作控制模块,将专业驾驶员的操纵数据作为专家示例数据,通过传统控制方法进行跟踪并得到基础操作控制;调整操作控制模块,在已有的接近最优策略的专家示例基础上采用强化学习,得到调整操作控制;运动变量获取模块,将所述基础操作控制和所述调整操作控制叠加后输出最能体现车辆性能极限程度的运动变量:纵向加速度和横向加速度;调节控制模块,将所述纵向加速度和横向加速度作为中间控制变量,通过执行器跟踪控制调节前轮转角和驱制动力矩,以跟踪目标纵向加速度和横向加速度,实现极限驾驶规划控制。
[0023]一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行上述方法中的任一方法。
[0024]一种计算设备,其包括:一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个
程序包括用于执行上述方法中的任一方法的指令。
[0025]本专利技术由于采取以上技术方案,其具有以下优点:
[0026]1、本专利技术结合专家示例数据的强化学习算法,对车辆自主极限驾驶的规划控制系统进行设计,通过研究专业驾驶员的极限驾驶本质,探索附着极限下车辆的动力学特性和控制策略,能够为改进赛车比赛中的理想路线及驾驶操作提供理论指导,从而缩短圈时。
[0027]2、本专利技术能进一步地应用到日常生活中,通过与自动驾驶技术结合,使得自动驾驶车辆拥有职业车手的高水平驾驶能力,可以更好地发掘车辆在极端驾驶工况下的控制潜能,如冰雪路面、高速紧急避撞场景等,从而最大限度地扩展自动驾驶车辆的应用场景及动力学控制边界。
附图说明
[0028]图1是本专利技术一实施例中的整体控制框架结构示意图;
[0029]图2是本专利技术一实施例中的总体赛道及先验轨迹本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的车辆自主极限驾驶规划控制方法,其特征在于,包括:将专业驾驶员的操纵数据作为专家示例数据,通过传统控制方法进行跟踪并得到基础操作控制;在已有的接近最优策略的专家示例基础上采用强化学习,得到调整操作控制;将所述基础操作控制和所述调整操作控制叠加后输出最能体现车辆性能极限程度的运动变量:纵向加速度和横向加速度;将所述纵向加速度和横向加速度作为中间控制变量,通过执行器跟踪控制调节前轮转角和驱制动力矩,以跟踪目标纵向加速度和横向加速度,实现极限驾驶规划控制。2.如权利要求1所述基于强化学习的车辆自主极限驾驶规划控制方法,其特征在于,所述基础操作控制的获取方法,包括:通过所述专业驾驶员的操纵数据得到当前车辆的位置误差,所述专业驾驶员的操纵数据为在预先设定的赛道环境中一圈用时最短的数据,包括每一时刻车辆的位置坐标;根据所述当前车辆的位置误差得到车身坐标系下期望的纵向车速和横向车速,将所述车身坐标系下期望的纵向车速和横向车速与车辆的水平面运动学方程结合,得到车辆当前的纵向车速误差和横向车速误差;所述车辆当前的纵向车速误差和横向车速误差收敛到0时,将期望的纵向车速和横向车速求导,得到车辆跟随专业驾驶员的驾驶轨迹得到的期望纵向加速度和期望横向加速度,作为基础操作控制。3.如权利要求1所述基于强化学习的车辆自主极限驾驶规划控制方法,其特征在于,采用SAC强化学习,所述调整操作控制的获取方法,包括:将车辆运动状态以及当前状态下的基础操作控制输入状态空间;设置两种奖励函数,将两种奖励函数相加得到智能体奖励函数;第一种即时奖励R
i
,是在自主极限驾驶过程中每个决策步骤后或每一阶段后给予的即时奖励,以克服强化学习过程中奖励的稀疏性,加快智能体的学习速度;另一种终止状态奖励R
t
,是在每个训练回合结束后,基于车辆不同的状态模式给予的终止状态奖励;动作输出为基于专家示例的基础操作控制进行改进的调整操作控制。4.如权利要求3所述基于强化学习的车辆自主极限驾驶规划控制方法,其特征在于,所述即时奖励R
i
包括:路径跟踪项,用于鼓励车辆实际轨迹尽可能接近理想轨迹;速度项,以使车辆以最快的速度通过整个赛道;极限加速度项,用于表示当前车辆的性能极限范围,G
‑
G图的边界范围;加速度利用率项,用于表示车辆运动状态与当前极限性能的接近程度;各弯道阶段奖励项,将弯道种类划分为通向直道的弯道、直道过后的弯道和连接两个其他弯道的弯道,三种弯道的优先级依次减低,对应的奖励权重依次减小,根据三种弯道的奖励权重以及各...
【专利技术属性】
技术研发人员:侯晓慧,张俊智,何承坤,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。