一种用于车辆自适应路径跟踪的终身学习方法及系统技术方案

技术编号:33119880 阅读:17 留言:0更新日期:2022-04-17 00:16
本发明专利技术涉及一种用于车辆自适应路径跟踪的终身学习方法及系统,属于路径跟踪技术领域,该方法包括:采集车辆运动状态数据和与运动状态数据对应的操控数据;将采集的数据集分为多个驾驶任务训练集;初始化轨迹跟踪策略模型和梯度暂时记忆;基于平均梯度暂时记忆的学习策略,根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练:对每个驾驶任务训练集,根据梯度暂时记忆确定参考梯度下降方向并以参考梯度下降方向为约束训练轨迹跟踪策略模型;当每个训练集训练后,基于知识分布和知识质量,对当前梯度暂时记忆中知识进行更新;采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。本发明专利技术提高了车辆自适应路径跟踪的适应性。的适应性。的适应性。

【技术实现步骤摘要】
一种用于车辆自适应路径跟踪的终身学习方法及系统


[0001]本专利技术涉及路径跟踪
,特别是涉及一种用于车辆自适应路径跟踪的终身学习方法及系统。

技术介绍

[0002]对于智能车辆而言,准确的执行路径跟踪是保证车辆驾驶安全性、稳定性和乘坐舒适性的基本技术。传统的路径跟踪方法大多基于静态线性模型预测控制算法或基于专家先验知识的传统控制算法,包括PID控制算法、反馈前馈控制算法、最优控制算法等。尽管这些方法可以在设计工况下较好地执行路径跟踪任务,但通常对工况或模型参数的变化较为敏感,进而导致这些方法对于不同车辆、驾驶任务和驾驶环境方面的适应性能较差。
[0003]在提高路径跟踪控制方法的适应性方面,智能控制方法在模型识别和参数调整方面展现出了极大的优越性。许多研究者基于专家知识和先验经验,提出了基于模糊的方法和自适应规律等的自适应路径跟踪控制方法,从而使建立的车辆动力学模型具备更强的自适应性。这些方法的准确性在很大程度上依赖于模糊逻辑和自适应规则的建模精度,然而随着场景与工况复杂程度的增加,这些方法的建模难度也将倍数增加。为了更精确地建模复杂或难以准确表达的车辆与场景模型,一些研究者提出了基于机器学习方法利用后验知识学习车辆和环境的特性。比如,采用人工神经网络近似轮胎侧偏刚度、采用神经网络对滑移转向机器人的动力学模型进行更新,抑或是将高斯混合模型和高斯混合回归与纯追踪方法相结合从而构建路径跟踪控制策略。然而,这些方法只能局部的学习模型且仍然依赖显式模型表征,因而在这种情况下,要适应不同的车辆和环境仍需对模型参数进行一系列调整。
[0004]相比于反复微调或修改参数模型,许多研究人员也试图通过模拟学习或强化学习直接学习驾驶经验来提高模型适应性。这些方法通过拟合收集到的后验驾驶经验,可以自适应地学习车辆模型与对应的控制策略,避免复杂的模型修改和参数调整。但仍有一些关键问题阻碍了它们在实际应用中的应用,其中一个主要问题是缺乏在线适应性,无法持续学习多个任务或场景中的控制策略。虽然基于强化学习的方法可以充分挖掘行为空间并学习近似策略,但策略探索可能会非常耗时,从而阻碍了策略的在线调整。同时,模拟学习方法是实现在线控制策略调整的理想方法,因为它们直接从历史经验中学习控制策略。随着经验的积累,基于模仿学习的策略有望进化并推广到不同的情况。然而对于模仿学习而言,在这种持续的策略学习过程中可能会发生灾难性的遗忘,即当策略模型中的神经网络学习新知识时,先前学到的知识可能会被遗忘,从而失去对先前场景的适应能力。

技术实现思路

[0005]本专利技术的目的是提供一种用于车辆自适应路径跟踪的终身学习方法及系统,提高了车辆自适应路径跟踪的适应性。
[0006]为实现上述目的,本专利技术提供了如下方案:
一种用于车辆自适应路径跟踪的终身学习方法,包括:采集数据集,所述数据集包括车辆运动状态数据和与所述运动状态数据对应的操控数据;将采集的所述数据集分为多个驾驶任务训练集;初始化轨迹跟踪策略模型和梯度暂时记忆;所述梯度暂时记忆用于存储知识,所述知识包括所述轨迹跟踪策略模型的输入量和输出量;基于平均梯度暂时记忆的学习策略,根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练,获得训练好的轨迹跟踪策略模型:对于每个驾驶任务训练集,根据梯度暂时记忆确定参考梯度下降方向并以所述参考梯度下降方向为约束训练轨迹跟踪策略模型;当每个驾驶任务训练集训练轨迹跟踪策略模型后,基于知识分布和知识质量,对当前梯度暂时记忆中知识进行更新;采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。
[0007]可选地,所述运动状态数据包括车辆速度,所述操控数据包括跟踪路径信息,所述跟踪路径信息包括预览点。
[0008]可选地,所述轨迹跟踪策略模型表示为:δ=π
θ
(P
ref
,ξ);其中,δ表示车辆前轮偏角,π
θ
表示由参数θ确定的车辆路径跟踪策略模型,P
ref
表示预览点,P
ref
=[x
ref
,y
ref
],x
ref
表示预览点的x轴坐标,y
ref
表示预览点的y轴坐标,ξ表示车辆的动态状态数据,ξ=[v
x
,v
y
,],v
x
表示车辆x轴速度,v
y
表示车辆y轴速度,表示车辆航向角变化率。
[0009]可选地,所述轨迹跟踪策略模型进行训练的损失函数的计算公式表示为:l(π
θ
,M)=(π
θ
(s
k
)

a
k
)2,(s
k
,a
k
)∈M;其中,l(π
θ
,M)表示所述损失函数,M表示梯度暂时记忆,s
k
=[x
ref
,y
ref
,v
x
,v
y
,v
r
],v
r
表示车辆横摆角速度,N表示一个驾驶任务训练集中的数据量,a
k
表示第k个驾驶任务数据中的车辆前轮偏角。
[0010]可选地,所述平均梯度暂时记忆的学习策略表示为:(π
θ
,D
t
)s.t.l(π
θ
,M)≤l(,M);其中,D
t
表示第t个驾驶任务训练集中的知识,D
t
={(s
k
,a
k
)|k=1,

,N},表示第t

1次训练时车辆路径跟踪策略,s.t.表示约束条件。
[0011]可选地,所述基于知识分布和知识质量,对当前梯度暂时记忆中知识进行更新,具体包括:所述轨迹跟踪策略模型的训练过程中,满足sim(s
k
,s
j
)=>η,(s
k
,a
k
)∈D
t


(s
j
,a
j
)∈M;其中,η表示相似阈值,j不等于k,j=1,

,N;
根据公式确定最佳知识,并将最佳知识(s
o
,a
o
)存储到当前梯度暂时记忆中;其中,S
k
表示知识的集合,EVAL()表示知识质量评估函数。
[0012]本专利技术公开了一种用于车辆自适应路径跟踪的终身学习系统,包括:数据集采集模块,用于采集数据集,所述数据集包括车辆运动状态数据和与所述运动状态数据对应的操控数据;多个驾驶任务训练集确定模块,用于将采集的所述数据集分为多个驾驶任务训练集;轨迹跟踪策略模型和梯度暂时记忆初始化模块,用于初始化轨迹跟踪策略模型和梯度暂时记忆;所述梯度暂时记忆用于存储知识,所述知识包括所述轨迹跟踪本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于车辆自适应路径跟踪的终身学习方法,其特征在于,包括:采集数据集,所述数据集包括车辆运动状态数据和与所述运动状态数据对应的操控数据;将采集的所述数据集分为多个驾驶任务训练集;初始化轨迹跟踪策略模型和梯度暂时记忆;所述梯度暂时记忆用于存储知识,所述知识包括所述轨迹跟踪策略模型的输入量和输出量;基于平均梯度暂时记忆的学习策略,根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练,获得训练好的轨迹跟踪策略模型:对于每个驾驶任务训练集,根据梯度暂时记忆确定参考梯度下降方向并以所述参考梯度下降方向为约束训练轨迹跟踪策略模型;当每个驾驶任务训练集训练轨迹跟踪策略模型后,基于知识分布和知识质量,对当前梯度暂时记忆中知识进行更新;采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。2.根据权利要求1所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述运动状态数据包括车辆速度,所述操控数据包括跟踪路径信息,所述跟踪路径信息包括预览点。3.根据权利要求1所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述轨迹跟踪策略模型表示为:δ=π
θ
(P
ref
,ξ);其中,δ表示车辆前轮偏角,π
θ
表示由参数θ确定的车辆路径跟踪策略模型,P
ref
表示预览点,P
ref
=[x
ref
,y
ref
],x
ref
表示预览点的x轴坐标,y
ref
表示预览点的y轴坐标,ξ表示车辆的动态状态数据,ξ=[v
x
,v
y
,],v
x
表示车辆x轴速度,v
y
表示车辆y轴速度,表示车辆航向角变化率。4.根据权利要求3所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述轨迹跟踪策略模型进行训练的损失函数的计算公式表示为:l(π
θ
,M)=(π
θ
(s
k
)

a
k
)2,(s
k
,a
k
)∈M;其中,l(π
θ
,M)表示所述损失函数,M表示梯度暂时记忆,s
k
=[x
ref
,y
ref
,v
x
,v
y
,v
r
],v
r
表示车辆横摆角速度,N表示一个驾驶任务训练集中的数据量,a
k
表示第k个驾驶任务数据中的车辆前轮偏角。5.根据权利要求4所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述平均梯度暂时记忆的学习策略表示为:(π
θ
,D
t
)s.t.l(π
θ
,M)≤l(,M);其中,D
t
表示第t个驾驶任务训练集中的知识,D
t
={(s
k
,a
k
)|k=1,

,N},表示第t

1次训练时车辆路径跟踪策略,s.t.表示约束条件。6.根据权利要求5所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述基于知识分布和知识质量,对当前梯度暂时记忆中知识进行更新,具体包括:
所述轨迹跟踪策略模型的训练过程中,满足sim(s
k
,s
j
)=>η,(s
k
,a
k
)∈D
t


(s
j

【专利技术属性】
技术研发人员:龚建伟龚乘吕超臧政刘喆
申请(专利权)人:慧动星球北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1