当前位置: 首页 > 专利查询>清华大学专利>正文

一种智能汽车连续时间最优决控模型构建及求解方法技术

技术编号:37375996 阅读:20 留言:0更新日期:2023-04-27 07:19
本公开提供的智能汽车连续时间最优决控模型构建及求解方法,包括:构建智能汽车连续时间最优决控模型,以自车的终端状态性能函数和从初始时刻至终端时刻的有限时域内的效用函数的连续时间积分作为目标函数,效用函数用于表达自车的综合性能,以智能汽车的连续时间动力学方程作为最优决控模型的运动约束,以参数化最优策略作为最优决控模型的输出;对最优决控模型进行迭代求解,每次迭代中,首先从初始时刻至终端时刻前向求解终端时刻的自车状态,然后从终端时刻至初始时刻后向求解策略梯度,并以梯度下降的方式更新参数化策略的参数,不断重复上述迭代过程直至参数化策略的参数收敛,得到最优参数化策略。本公开精度高、适用范围广、节省内存。节省内存。节省内存。

【技术实现步骤摘要】
一种智能汽车连续时间最优决控模型构建及求解方法


[0001]本公开属于智能汽车自主决控
,特别涉及一种智能汽车连续时间最优决控模型构建及求解方法、装置和存储介质。

技术介绍

[0002]自动驾驶在提高通行效率、减少安全事故、降低能源消耗、缓解驾驶员负担等方面有巨大潜力。其中自主决策和运动控制是实现自动驾驶的核心技术,人工智能技术的不断发展促进了学习型自主决控方法的广泛应用。
[0003]现有的学习型智能自主决控方法存在两点缺陷:一方面:采用离散时间而非连续时间的设定,然而现实物理世界是连续时间演变而非离散跳变,离散化操作不可避免地会损失信息,损害策略精度。另一方面,现有方法通过链式法则求解策略梯度,需要存储所有时刻的状态和动作以及它们之间的时序关系才能构建梯度计算图,内存消耗大。

技术实现思路

[0004]本公开旨在解决上述问题之一。
[0005]为此,本公开第一方面提供的一种智能汽车连续时间最优决控模型构建及求解方法,具有求解精度高、适用范围广和占用内存小的优点。本公开第一方面提供的智能汽车连续时间最优决控模型构建及求解方法,包括:
[0006]构建智能汽车连续时间最优决控模型,以自车的终端状态性能函数和从初始时刻至终端时刻的有限时域内的效用函数的连续时间积分作为目标函数,所述效用函数用于表达自车的综合性能,所述自车的综合性能包括自车的路径跟踪性能、舒适性能和能量消耗性能,以智能汽车的连续时间动力学方程作为所述智能汽车连续时间最优决控模型的运动约束,以参数化最优策略作为所述智能汽车连续时间最优决控模型的输出;
[0007]对所述智能汽车连续时间最优决控模型进行迭代求解,每次迭代过程中,首先从初始时刻至终端时刻前向求解终端时刻的自车状态,然后从终端时刻至初始时刻后向求解策略梯度,并以梯度下降的方式更新参数化策略的参数,不断重复上述迭代过程直至参数化策略的参数收敛,迭代求解结束,得到最优参数化策略。
[0008]在一些实施例中,构建的所述智能汽车连续时间最优决控模型的表达式如下:
[0009][0010][0011]式(1)中,J(x0;θ)为智能汽车连续时间最优决控模型的目标函数,定义为终端状
态性能函数φ(x
T
)与从初始时刻0至终端时刻T的有限时域[0,T]内效用函数l(x
t
,u
t
)的连续时间积分之和,x
t
和u
t
分别为有限时域[0,T]内任意时刻t的自车状态和自车动作,将初始时刻和终端时刻的自车状态分别定义为初始状态和终端状态;π
θ
(x
t
,t;θ)为参数化策略,用于根据有限时域[0,T]内的t时刻及该时刻的自车状态x
t
得到t时刻的自车动作u
t
,θ为参数化策略中待优化的参数;设从初始时刻0至时刻t时域[0,t]内的任意时刻为τ,将时域[0,t]内效用函数l(x
τ
,u
τ
)的连续时间积分定义为效用状态c
t
,以此将目标函数J(x0;θ)转化为只与自车的终端状态x
T
和终端时刻的效用状态c
T
有关的函数,记为Φ(x
T
,c
T
);
[0012]式(2)为构建的智能汽车连续时间最优决控模型的约束,即时刻t的自车状态x
t
需要满足智能汽车的连续时间动力学方程的运动约束。
[0013]在一些实施例中,针对结构化道路场景的轨迹跟踪问题,设有限时域[0,T]内t时刻的自车状态x
t
包含时刻智能汽车在大地坐标系下的横纵向位置p
xt
,p
yt
、横纵向速度v
xt
,v
yt
、横摆角和横摆角速度ω
t
,设有限时域[0,T]内t时刻的自车动作u
t
包含t时刻智能汽车的加速度a
t
和前轮转角δ
t
;设定目标状态为x
target
,令终端状态性能函数φ(x
T
)为:φ(x
T
)=(x
T

x
target
)2;设效用函数l(x
t
,u
t
)为:l(x
t
,u
t
)=e(x
t
)
T
Qe(x
t
)+u
tT
Ru
t
,其中Q,R分别为状态效用矩阵和动作效用矩阵,均采用对角正定矩阵,e(xt)为状态跟踪误差。
[0014]在一些实施例中,所述状态跟踪误差在一些实施例中,所述状态跟踪误差在一些实施例中,所述状态跟踪误差分别为自车状态x
t
中各参数的参考值。
[0015]在一些实施例中,所述对智能汽车连续时间最优决控模型进行迭代求解,具体包括以下步骤:
[0016]2‑
1)参数初始化
[0017]设自车的初始状态分布为d并对其进行初始化,在所述初始状态分布d中采样获得自车的初始状态x0;初始化空的经验回放池B,用于存放求解过程中任意时刻的自车状态,并作为初始状态x0的另一采样来源;初始化参数化策略π
θ
(x
t
,t;θ);初始化初值问题求解器,对于任一变量,给定任意时域内的常微分方程和其中一端时刻的值作为初值,即可解得该任一变量在该给定任意时域内的连续时间轨迹;初始化策略更新的学习率α,设定判断策略收敛的容差,设循环指示变量为k并初始化k=0;
[0018]2‑
2)令循环指示变量k=k+1,使用当前策略与智能汽车交互采样,将采集到的任意时刻自车状态存入经验回放池,从自车的初始状态分布d和经验回放池B中批量采样自车的初始状态x0;
[0019]2‑
3)前向求解过程:设待求解变量为自车状态x
t
,以采样获取的0时刻的初始状态x0作为前向求解过程的初值问题的初值,以智能汽车的连续时间动力学方程作为初值问题的常微分方程,使用初值问题求解器沿时间范围0到T求解得自车的终端状态x
T
,以此为后向求解过程提供初值;
[0020]2‑
4)后向求解过程:设待求解变量为根据自车状态x
t
、值函数V
t
对自车状态x
t
的偏导以及值函数V
t
对参数θ的微分得到的协态s
t
,根据函数Φ(x
T
,c
T
)与效用状态c
t
之差定义所述值函数V
t
;以终端时刻的协态s
T
作为后向求解过程的初值问题的初值;以协态s
t...

【技术保护点】

【技术特征摘要】
1.一种智能汽车连续时间最优决控模型构建及求解方法,其特征在于,包括:构建智能汽车连续时间最优决控模型,以自车的终端状态性能函数和从初始时刻至终端时刻的有限时域内的效用函数的连续时间积分作为目标函数,所述效用函数用于表达自车的综合性能,所述自车的综合性能包括自车的路径跟踪性能、舒适性能和能量消耗性能,以智能汽车的连续时间动力学方程作为所述智能汽车连续时间最优决控模型的运动约束,以参数化最优策略作为所述智能汽车连续时间最优决控模型的输出;对所述智能汽车连续时间最优决控模型进行迭代求解,每次迭代过程中,首先从初始时刻至终端时刻前向求解终端时刻的自车状态,然后从终端时刻至初始时刻后向求解策略梯度,并以梯度下降的方式更新参数化策略的参数,不断重复上述迭代过程直至参数化策略的参数收敛,迭代求解结束,得到最优参数化策略。2.根据权利要求1所述的智能汽车连续时间最优决控模型构建及求解方法,其特征在于,构建的所述智能汽车连续时间最优决控模型的表达式如下:于,构建的所述智能汽车连续时间最优决控模型的表达式如下:式(1)中,J(x0;θ)为智能汽车连续时间最优决控模型的目标函数,定义为终端状态性能函数φ(x
T
)与从初始时刻0至终端时刻T的有限时域[0,T]内效用函数l(x
t
,u
t
)的连续时间积分之和,x
t
和u
t
分别为有限时域[0,T]内任意时刻t的自车状态和自车动作,将初始时刻和终端时刻的自车状态分别定义为初始状态和终端状态;π
θ
(x
t
,t;θ)为参数化策略,用于根据有限时域[0,T]内的t时刻及该时刻的自车状态x
t
得到t时刻的自车动作u
t
,θ为参数化策略中待优化的参数;设从初始时刻0至时刻t时域[0,t]内的任意时刻为τ,将时域[0,t]内效用函数l(x
τ
,u
τ
)的连续时间积分定义为效用状态c
t
,以此将目标函数J(x0;θ)转化为只与自车的终端状态x
T
和终端时刻的效用状态c
T
有关的函数,记为Φ(x
T
,c
T
);式(2)为构建的智能汽车连续时间最优决控模型的约束,即时刻t的自车状态x
t
需要满足智能汽车的连续时间动力学方程的运动约束。3.根据权利要求2所述的智能汽车连续时间最优决控模型构建及求解方法,其特征在于,针对结构化道路场景的轨迹跟踪问题,设有限时域[0,T]内t时刻的自车状态x
t
包含时刻智能汽车在大地坐标系下的横纵向位置p
xt
,p
yt
、横纵向速度v
xt
,v
yt
、横摆角和横摆角速度ω
t
,设有限时域[0,T]内t时刻的自车动作u
t
包含t时刻智能汽车的加速度a
t
和前轮转角δ
t
;设定目标状态为x
target
,令终端状态性能函数φ(x
T
)为:φ(x
T
)=(x
T

x
target
)2;设效用函数l(x
t
,u
t
)为:l(x
t
,u
t
)=e(x
t
)
T
Qe(x
t
)+u
tT
Ru
t
,其中Q,R分别为状态效用矩阵和动作效用矩阵,均采用对角正定矩阵,e(x
t
)为状态跟踪误差。4.根据权利要求3所述的智能汽车连续时间最优决控模型构建及求解方法,其特征在于,所述状态跟踪误差
分别为自车状态x
t
中各参数的参考值。5.根据权利要求2所述的智能...

【专利技术属性】
技术研发人员:李升波占国建蒋宇轩兰志前吕尧任彦刚王建强成波李克强
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1