【技术实现步骤摘要】
一种用于车辆自适应路径跟踪的终身学习方法及系统
[0001]本专利技术涉及路径跟踪
,特别是涉及一种用于车辆自适应路径跟踪的终身学习方法及系统。
技术介绍
[0002]对于智能车辆而言,准确的执行路径跟踪是保证车辆驾驶安全性、稳定性和乘坐舒适性的基本技术。传统的路径跟踪方法大多基于静态线性模型预测控制算法或基于专家先验知识的传统控制算法,包括PID控制算法、反馈前馈控制算法、最优控制算法等。尽管这些方法可以在设计工况下较好地执行路径跟踪任务,但通常对工况或模型参数的变化较为敏感,进而导致这些方法对于不同车辆、驾驶任务和驾驶环境方面的适应性能较差。
[0003]在提高路径跟踪控制方法的适应性方面,智能控制方法在模型识别和参数调整方面展现出了极大的优越性。许多研究者基于专家知识和先验经验,提出了基于模糊的方法和自适应规律等的自适应路径跟踪控制方法,从而使建立的车辆动力学模型具备更强的自适应性。这些方法的准确性在很大程度上依赖于模糊逻辑和自适应规则的建模精度,然而随着场景与工况复杂程度的增加,这些方法的建模难度也将倍数增加。为了更精确地建模复杂或难以准确表达的车辆与场景模型,一些研究者提出了基于机器学习方法利用后验知识学习车辆和环境的特性。比如,采用人工神经网络近似轮胎侧偏刚度、采用神经网络对滑移转向机器人的动力学模型进行更新,抑或是将高斯混合模型和高斯混合回归与纯追踪方法相结合从而构建路径跟踪控制策略。然而,这些方法只能局部的学习模型且仍然依赖显式模型表征,因而在这种情况下,要适应不同的车辆和环境仍需对模型 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种用于车辆自适应路径跟踪的终身学习方法,其特征在于,包括:采集数据集,所述数据集包括车辆运动状态数据和与所述运动状态数据对应的操控数据;将采集的所述数据集分为多个驾驶任务训练集;初始化轨迹跟踪策略模型和梯度暂时记忆;所述梯度暂时记忆用于存储知识,所述知识包括所述轨迹跟踪策略模型的输入量和输出量;基于平均梯度暂时记忆的学习策略,根据多个驾驶任务训练集对轨迹跟踪策略模型进行迭代训练,获得训练好的轨迹跟踪策略模型:对于每个驾驶任务训练集,根据梯度暂时记忆确定参考梯度下降方向并以所述参考梯度下降方向为约束训练轨迹跟踪策略模型;当每个驾驶任务训练集训练轨迹跟踪策略模型后,基于知识分布和知识质量,对当前梯度暂时记忆中知识进行更新;采用训练好的轨迹跟踪策略模型对待控制车辆进行路径跟踪。2.根据权利要求1所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述运动状态数据包括车辆速度,所述操控数据包括跟踪路径信息,所述跟踪路径信息包括预览点。3.根据权利要求1所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述轨迹跟踪策略模型表示为:δ=π
θ
(P
ref
,ξ);其中,δ表示车辆前轮偏角,π
θ
表示由参数θ确定的车辆路径跟踪策略模型,P
ref
表示预览点,P
ref
=[x
ref
,y
ref
],x
ref
表示预览点的x轴坐标,y
ref
表示预览点的y轴坐标,ξ表示车辆的动态状态数据,ξ=[v
x
,v
y
,],v
x
表示车辆x轴速度,v
y
表示车辆y轴速度,表示车辆航向角变化率。4.根据权利要求3所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述轨迹跟踪策略模型进行训练的损失函数的计算公式表示为:l(π
θ
,M)=(π
θ
(s
k
)
‑
a
k
)2,(s
k
,a
k
)∈M;其中,l(π
θ
,M)表示所述损失函数,M表示梯度暂时记忆,s
k
=[x
ref
,y
ref
,v
x
,v
y
,v
r
],v
r
表示车辆横摆角速度,N表示一个驾驶任务训练集中的数据量,a
k
表示第k个驾驶任务数据中的车辆前轮偏角。5.根据权利要求4所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述平均梯度暂时记忆的学习策略表示为:(π
θ
,D
t
)s.t.l(π
θ
,M)≤l(,M);其中,D
t
表示第t个驾驶任务训练集中的知识,D
t
={(s
k
,a
k
)|k=1,
…
,N},表示第t
‑
1次训练时车辆路径跟踪策略,s.t.表示约束条件。6.根据权利要求5所述的用于车辆自适应路径跟踪的终身学习方法,其特征在于,所述基于知识分布和知识质量,对当前梯度暂时记忆中知识进行更新,具体包括:
所述轨迹跟踪策略模型的训练过程中,满足sim(s
k
,s
j
)=>η,(s
k
,a
k
)∈D
t
,
∀
(s
j
技术研发人员:龚建伟,龚乘,吕超,臧政,刘喆,
申请(专利权)人:慧动星球北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。