一种智能汽车连续时间最优决控模型构建及求解方法技术

技术编号：37375996 阅读：20 留言：0更新日期：2023-04-27 07:19

本公开提供的智能汽车连续时间最优决控模型构建及求解方法，包括：构建智能汽车连续时间最优决控模型，以自车的终端状态性能函数和从初始时刻至终端时刻的有限时域内的效用函数的连续时间积分作为目标函数，效用函数用于表达自车的综合性能，以智能汽车的连续时间动力学方程作为最优决控模型的运动约束，以参数化最优策略作为最优决控模型的输出；对最优决控模型进行迭代求解，每次迭代中，首先从初始时刻至终端时刻前向求解终端时刻的自车状态，然后从终端时刻至初始时刻后向求解策略梯度，并以梯度下降的方式更新参数化策略的参数，不断重复上述迭代过程直至参数化策略的参数收敛，得到最优参数化策略。本公开精度高、适用范围广、节省内存。节省内存。节省内存。

全部详细技术资料下载

【技术实现步骤摘要】
一种智能汽车连续时间最优决控模型构建及求解方法

[0001]本公开属于智能汽车自主决控
，特别涉及一种智能汽车连续时间最优决控模型构建及求解方法、装置和存储介质。

技术介绍

[0002]自动驾驶在提高通行效率、减少安全事故、降低能源消耗、缓解驾驶员负担等方面有巨大潜力。其中自主决策和运动控制是实现自动驾驶的核心技术，人工智能技术的不断发展促进了学习型自主决控方法的广泛应用。
[0003]现有的学习型智能自主决控方法存在两点缺陷：一方面：采用离散时间而非连续时间的设定，然而现实物理世界是连续时间演变而非离散跳变，离散化操作不可避免地会损失信息，损害策略精度。另一方面，现有方法通过链式法则求解策略梯度，需要存储所有时刻的状态和动作以及它们之间的时序关系才能构建梯度计算图，内存消耗大。

技术实现思路

[0004]本公开旨在解决上述问题之一。
[0005]为此，本公开第一方面提供的一种智能汽车连续时间最优决控模型构建及求解方法，具有求解精度高、适用范围广和占用内存小的优点。本公开第一方面提供的智能汽车连续时间最优决控模型构建及求解方法，包括：
[0006]构建智能汽车连续时间最优决控模型，以自车的终端状态性能函数和从初始时刻至终端时刻的有限时域内的效用函数的连续时间积分作为目标函数，所述效用函数用于表达自车的综合性能，所述自车的综合性能包括自车的路径跟踪性能、舒适性能和能量消耗性能，以智能汽车的连续时间动力学方程作为所述智能汽车连续时间最优决控模型的运动约束，以参数化最优策略作为

【技术保护点】

【技术特征摘要】
1.一种智能汽车连续时间最优决控模型构建及求解方法，其特征在于，包括：构建智能汽车连续时间最优决控模型，以自车的终端状态性能函数和从初始时刻至终端时刻的有限时域内的效用函数的连续时间积分作为目标函数，所述效用函数用于表达自车的综合性能，所述自车的综合性能包括自车的路径跟踪性能、舒适性能和能量消耗性能，以智能汽车的连续时间动力学方程作为所述智能汽车连续时间最优决控模型的运动约束，以参数化最优策略作为所述智能汽车连续时间最优决控模型的输出；对所述智能汽车连续时间最优决控模型进行迭代求解，每次迭代过程中，首先从初始时刻至终端时刻前向求解终端时刻的自车状态，然后从终端时刻至初始时刻后向求解策略梯度，并以梯度下降的方式更新参数化策略的参数，不断重复上述迭代过程直至参数化策略的参数收敛，迭代求解结束，得到最优参数化策略。2.根据权利要求1所述的智能汽车连续时间最优决控模型构建及求解方法，其特征在于，构建的所述智能汽车连续时间最优决控模型的表达式如下：于，构建的所述智能汽车连续时间最优决控模型的表达式如下：式(1)中，J(x0；θ)为智能汽车连续时间最优决控模型的目标函数，定义为终端状态性能函数φ(x
T
)与从初始时刻0至终端时刻T的有限时域[0,T]内效用函数l(x
t
,u
t
)的连续时间积分之和，x
t
和u
t
分别为有限时域[0,T]内任意时刻t的自车状态和自车动作，将初始时刻和终端时刻的自车状态分别定义为初始状态和终端状态；π
θ
(x
t
,t；θ)为参数化策略，用于根据有限时域[0,T]内的t时刻及该时刻的自车状态x
t
得到t时刻的自车动作u
t
，θ为参数化策略中待优化的参数；设从初始时刻0至时刻t时域[0,t]内的任意时刻为τ，将时域[0,t]内效用函数l(x
τ
,u
τ
)的连续时间积分定义为效用状态c
t
，以此将目标函数J(x0；θ)转化为只与自车的终端状态x
T
和终端时刻的效用状态c
T
有关的函数，记为Φ(x
T
,c
T
)；式(2)为构建的智能汽车连续时间最优决控模型的约束，即时刻t的自车状态x
t
需要满足智能汽车的连续时间动力学方程的运动约束。3.根据权利要求2所述的智能汽车连续时间最优决控模型构建及求解方法，其特征在于，针对结构化道路场景的轨迹跟踪问题，设有限时域[0,T]内t时刻的自车状态x
t
包含时刻智能汽车在大地坐标系下的横纵向位置p
xt
,p
yt
、横纵向速度v
xt
,v
yt
、横摆角和横摆角速度ω
t
，设有限时域[0,T]内t时刻的自车动作u
t
包含t时刻智能汽车的加速度a
t
和前轮转角δ
t
；设定目标状态为x
target
，令终端状态性能函数φ(x
T
)为：φ(x
T
)＝(x
T
‑
x
target
)2；设效用函数l(x
t
,u
t
)为：l(x
t
,u
t
)＝e(x
t
)
T
Qe(x
t
)+u
tT
Ru
t
，其中Q,R分别为状态效用矩阵和动作效用矩阵，均采用对角正定矩阵，e(x
t
)为状态跟踪误差。4.根据权利要求3所述的智能汽车连续时间最优决控模型构建及求解方法，其特征在于，所述状态跟踪误差
分别为自车状态x
t
中各参数的参考值。5.根据权利要求2所述的智能...

【专利技术属性】
技术研发人员：李升波，占国建，蒋宇轩，兰志前，吕尧，任彦刚，王建强，成波，李克强，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人