一种依托强化学习的铰接车轨迹跟踪控制方法及装置制造方法及图纸

技术编号:37981475 阅读:5 留言:0更新日期:2023-06-30 09:56
本发明专利技术公开了一种依托强化学习的铰接车轨迹跟踪控制方法及装置,涉及自动驾驶技术领域。包括:获取待控制铰接车的车辆状态以及环境观测量;将车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型;根据车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型,得到每个时间步的车辆状态,实现铰接车轨迹跟踪控制。本发明专利技术提供了一种依托强化学习的铰接车轨迹跟踪控制方法的构建及求解方法,以实现铰接车轨迹跟踪控制高实时、高精度的在线计算。线计算。线计算。

【技术实现步骤摘要】
一种依托强化学习的铰接车轨迹跟踪控制方法及装置


[0001]本专利技术涉及自动驾驶
,尤其涉及一种依托强化学习的铰接车轨迹跟踪控制方法及装置。

技术介绍

[0002]铰接车是一种在矿山、山地等恶劣地形环境中有着广泛应用的车辆,其前后车体通过铰接点与摆动环连接,并依靠液压缸的伸缩来实现车体航向角的改变。相较于一般的轮式车辆,铰接车具有转弯半径小、通过性强以及使用成本低的优点。然而,铰接车由于特殊的车体结构,导致其运动学特性相较于一般轮式车辆更为复杂,无人驾驶实现难度更大。因此,实现铰接车自动驾驶对于降低企业生产成本、减少生产安全事故以及提高生产效率等方面有着巨大的潜力。其中,运动控制作为铰接车自动驾驶的核心技术之一,近年来随着人工智能技术的不断发展,学习型的自主决控方法在自动驾驶领域得到了广泛的应用。
[0003]自动驾驶领域的运动控制主要分为纵向以及横向控制。纵向控制主要是针对车辆油门以及刹车的控制,相对技术比较成熟,而横向控制是给出控制量来控制车辆方向盘朝着一定的参考轨迹逼近,以实现轨迹跟踪的目的。现有的运动控制方法主要存在以下缺陷:一方面:一些典型的控制方法如比例

积分

微分控制PID(Proportional

Integral

Derivative,比例

积分

微分控制)、线性二次调节控制LQR(Linear Quadratic Regulator,线性二次调节控制)等,虽然结构简单,但是无法处理复杂的系统约束或者由于忽略了系统的非线性特性,因而在实际应用中往往难以达到理想的跟踪效果。另一方面:对于预测型运动控制方法,车载控制器需要基于预测模型及约束条件,在线求解每一采样周期的最优控制序列。当求解难度增加以及车载计算资源不足时,求解的速度难以满足控制器的控制实时性要求。此外,对于预测型轨迹跟踪方法,参考轨迹点的信息通常难以获取,在跟踪复杂轨迹时难以保证被控对象能以期望速度准确跟踪参考轨迹。

技术实现思路

[0004]本专利技术针对现有运动控制方法无法处理复杂的系统约束或者由于忽略了系统的非线性特性,因而在实际应用中往往难以达到理想的跟踪效果的问题,当求解难度增加以及车载计算资源不足时,求解的速度难以满足控制器的控制实时性要求的问题,以及参考轨迹点的信息通常难以获取,在跟踪复杂轨迹时难以保证被控对象能以期望速度准确跟踪参考轨迹的问题,提出了本专利技术。
[0005]为解决上述技术问题,本专利技术提供如下技术方案:一方面,本专利技术提供了一种依托强化学习的铰接车轨迹跟踪控制方法,该方法由电子设备实现,该方法包括:S1、获取待控制铰接车的车辆状态以及环境观测量。
[0006]S2、将车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型。
[0007]S3、根据车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型,得到每个时间
步的车辆状态,实现铰接车轨迹跟踪控制。
[0008]可选地,S2中的铰接车轨迹跟踪最优控制模型的构建过程包括:S21、获取预设的初始条件以及初始化参数。
[0009]S22、根据初始条件以及初始化参数,得到预测时域内各参考点的横坐标。
[0010]S23、以t时刻自车位置为原点建立自车坐标系,基于铰接车离散时间运动学方程以及t时刻策略输出的动作,获取t+1时刻的自车状态量。
[0011]S24、根据t+1时刻的自车状态量以及预测时域内各参考点的横坐标构建奖励函数。
[0012]S25、更新参考点信息。
[0013]S26、根据更新后的参考点信息,获取基于自车坐标系的车辆状态及环境观测量。
[0014]S27、将奖励函数、基于自车坐标系的车辆状态及环境观测量作为铰接车轨迹跟踪最优控制模型的输入,建立约束条件,计算目标函数,得到构建好的铰接车轨迹跟踪最优控制模型。
[0015]可选地,S21中的预设的初始条件以及初始化参数,包括:在t时刻,获取大地坐标系下连续的参考轨迹信息、期望速度曲线、系统的控制频率、预测时域以及自车位置。
[0016]可选地,S22中的根据初始条件以及初始化参数,得到预测时域内各参考点的横坐标,包括:在大地坐标系下,基于当前自车位置,利用期望速度对不同时间步的积分,求得预测时域内各参考点的横坐标。
[0017]可选地,求得预测时域内各参考点的横坐标,如下式(1)所示:(1) 其中,j表示参考点的位置,N为预测时域,f为控制频率,t为时刻,v
ref
为期望速度。
[0018]可选地,S24中的奖励函数,如下式(2)所示:(2)其中,X为自车状态量,X
ref
为环境信息,u为自车动作,e为状态跟踪误差,T 为矩阵转置,Q为状态效用矩阵,R为动作效用矩阵。
[0019]可选地,S25中的更新参考点信息,包括:利用预设的期望速度对一个时间步进行积分,得到参考轨迹上一个新的参考点,并删除参考量队列中的第一个参考点的信息,将新的参考点添加至参考量队列末端。
[0020]可选地,S27中的建立约束条件,包括:以铰接车的离散时间运动学方程作为铰接车轨迹跟踪最优控制模型的运动约束,以控制分量幅值约束为控制约束,建立约束条件,如下式(3)

(4)所示:(3)(4)其中,A为状态矩阵,B为输入矩阵,X
k
表示k时刻的自车状态量,X
k+1
表示k+1时刻的
自车状态量;a为动作空间下界,b为动作空间上界,u为自车动作,u
k
为k时刻自车动作。
[0021]可选地,S27中的计算目标函数,包括:采用值分布柔性执行评价强化学习算法学习独立的值分布函数以及策略函数。
[0022]其中,值分布函数,如下式(5)

(8)所示:(5)(6)(7)(8)其中,X为自车状态量,X
ref
为环境信息,u为自车动作,为参数化目标值网络中待优化的参数,表示求期望,r为奖励函数,为下一刻自车状态,为下一时刻环境信息,B为经验池,为由第二策略网络输出的动作,为第二策略网络,Z为基于柔性策略产生的累计回报为状态动作回报,为柔性Z值的概率密度函数,为目标值网络中的待优化参数,为Bellman 自洽算子,为第一策略网络,为参数化策略中待优化的参数,为折扣因子,为t+1时刻的累计回报,σ
Z
为值分布标准差;策略函数,如下式(9)所示:(9)其中,Q由值分布函数给出,α为策略熵系数。
[0023]另一方面,本专利技术提供了一种依托强化学习的铰接车轨迹跟踪控制装置,该装置应用于实现依托强化学习的铰接车轨迹跟踪控制方法,该装置包括:获取模块,用于获取待控制铰接车的车辆状态以及环境观测量。
[0024]输入模块,用于将车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型。
[0025]输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种依托强化学习的铰接车轨迹跟踪控制方法,其特征在于,所述方法包括:S1、获取待控制铰接车的车辆状态以及环境观测量;S2、将所述车辆状态以及环境观测量输入到构建好的铰接车轨迹跟踪最优控制模型;S3、根据所述车辆状态、环境观测量以及铰接车轨迹跟踪最优控制模型,得到每个时间步的车辆状态,实现铰接车轨迹跟踪控制。2.根据权利要求1所述的方法,其特征在于,所述S2中的铰接车轨迹跟踪最优控制模型的构建过程包括:S21、获取预设的初始条件以及初始化参数;S22、根据所述初始条件以及初始化参数,得到预测时域内各参考点的横坐标;S23、以 t时刻自车位置为原点建立自车坐标系,基于铰接车离散时间运动学方程以及t时刻策略输出的动作,获取 t+1时刻的自车状态量;S24、根据所述t+1时刻的自车状态量以及预测时域内各参考点的横坐标构建奖励函数;S25、更新参考点信息;S26、根据更新后的参考点信息,获取基于自车坐标系的车辆状态及环境观测量;S27、将所述奖励函数、基于自车坐标系的车辆状态及环境观测量作为铰接车轨迹跟踪最优控制模型的输入,建立约束条件,计算目标函数,得到构建好的铰接车轨迹跟踪最优控制模型。3.根据权利要求2所述的方法,其特征在于,所述S21中的预设的初始条件以及初始化参数,包括:在 t时刻,获取大地坐标系下连续的参考轨迹信息、期望速度曲线、系统的控制频率、预测时域以及自车位置。4.根据权利要求2所述的方法,其特征在于,所述S22中的根据所述初始条件以及初始化参数,得到预测时域内各参考点的横坐标,包括:在大地坐标系下,基于当前自车位置,利用期望速度对不同时间步的积分,求得预测时域内各参考点的横坐标。5.根据权利要求4所述的方法,其特征在于,所述求得预测时域内各参考点的横坐标,如下式(1)所示: (1)其中,j表示参考点的位置,N为预测时域,f为控制频率, t为时刻,v
ref
为期望速度。6.根据权利要求2所述的方法,其特征在于,所述S24中的奖励函数,如下式(2)所示:(2)其中,X为自车状态量,X
ref
为环境信息,u为自车动作,e为状态跟踪误差,T为矩阵转置,Q为状态效用矩阵,R为动作效用矩阵。7.根据权利要求2所述的方法,...

【专利技术属性】
技术研发人员:段京良陈良发刘童肖礼明闫昊琪高路路马飞
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1