当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于驾驶员个性化的拟人变道轨迹优化方法技术

技术编号:38428280 阅读:10 留言:0更新日期:2023-08-07 11:25
本发明专利技术涉及一种基于驾驶员个性化的拟人变道轨迹优化方法,包括:根据车辆变道行为决策的起点的车辆状态,构建变道轨迹的约束,通过遍历所有可能的变道行为决策的终点的车辆状态,生成候选变道轨迹;构建最大熵逆强化学习模型,所述最大熵逆强化学习模型的奖励函数由一组基函数组成,基函数从驾驶安全、个性化驾驶风格两个方面进行设计,保证车辆变道的安全性和驾驶风格个性化,同时基函数的系数通过逆强化学习进行确定;基于人类驾驶员示范轨迹对最大熵逆强化学习模型进行拟人化训练;基于训练完成的最大熵逆强化学习模型的奖励函数对候选变道轨迹进行评估,选择最优变道轨迹。与现有技术相比,本发明专利技术具有拟人化、个性化、安全性强等优点。全性强等优点。全性强等优点。

【技术实现步骤摘要】
一种基于驾驶员个性化的拟人变道轨迹优化方法


[0001]本专利技术涉及自动驾驶汽车行为决策
,尤其是涉及一种基于驾驶员个性化的拟人变道轨迹优化方法。

技术介绍

[0002]自动驾驶是近年来学术界和业界广泛研究的热门话题。随着技术的发展,可以预见在未来,将有越来越多的自动驾驶汽车出现在道路上。但现阶段,人们对自动驾驶汽车的接受程度并不高。其中很大的原因是自动驾驶汽车与人类驾驶员所作出的驾驶行为较为不一致,不能实现拟人驾驶。研究表明,自动驾驶汽车的行为越像人类驾驶员的行为,人们对自动驾驶汽车的信任度越高。因而自动驾驶汽车的驾驶行为应尽可能像人类驾驶员的驾驶行为,从而使得自动驾驶汽车能被更多人接纳。
[0003]对于类人驾驶行为模拟,随着人工智能的发展,目前主要有两种方法:模仿学习和逆强化学习。模仿学习,直接学习人类的驾驶行为。而逆强化学习通过学习人类驾驶行为背后的奖励函数,进而通过奖励函数学习最优行为策略。由于奖励函数相比直接学习具体的行为,本质上更具可转移性,因而逆强化学习的泛化性通常较强。通常逆强化学习与强化学习结合,通过逆强化学习得到奖励函数,再通过强化学习根据这一奖励函数寻找最优策略。但是这种方法,使得模型较为复杂,计算量较大,对自动驾驶汽车的应用提出了挑战。
[0004]同时,随着社会科技的发展,人们越来越偏向于产品实现个性化,能够根据自己的需求定制产品。放在自动驾驶汽车上,便是人们希望自动驾驶汽车能够按照他们期望的驾驶风格进行驾驶。驾驶风格是人类驾驶员驾驶行为的概况,反应了人类驾驶员的驾驶行为。不同驾驶员拥有不同的驾驶风格,不同人期望的驾驶风格是不同的,因而自动驾驶汽车应能根据人们期望的驾驶风格进行驾驶,以此来实现个性化自动驾驶。
[0005]汽车的驾驶行为可以分成两大类,跟车行为和变道行为。跟车行为的交互对象仅限于同一车道的前后车,而变道行为的交互对象则涉及到目标车道的车辆,更加复杂、危险。因而安全、高效地实现个性化、拟人化变道行为,对自动驾驶汽车而言十分具有挑战。

技术实现思路

[0006]本专利技术的目的是为了提供一种基于驾驶员个性化的拟人变道轨迹优化方法,通过将基函数与驾驶风格识别结合,在拟人化基础上实现个性化决策,同时通过候选变道轨迹的生成减小模型复杂度和计算量。
[0007]本专利技术的目的可以通过以下技术方案来实现:
[0008]一种基于驾驶员个性化的拟人变道轨迹优化方法,包括以下步骤:
[0009]S1、根据车辆变道行为决策的起点的车辆状态,构建变道轨迹的约束,通过遍历所有可能的变道行为决策的终点的车辆状态,生成候选变道轨迹;
[0010]S2、构建最大熵逆强化学习模型,所述最大熵逆强化学习模型的奖励函数由一组基函数组成,基函数从驾驶安全、个性化驾驶风格两个方面进行设计,保证车辆变道的安全
性和驾驶风格个性化,同时基函数的系数通过逆强化学习进行确定;
[0011]S3、基于人类驾驶员示范轨迹对最大熵逆强化学习模型进行拟人化训练;
[0012]S4、基于训练完成的最大熵逆强化学习模型的奖励函数对候选变道轨迹进行评估,选择最优变道轨迹。
[0013]进一步的,所述步骤S1中,在直线道路行驶时,变道行为决策后,车辆将进入稳定行驶的状态,近似于匀速直线运动,故目标状态空间为:
[0014][0015]其中,v
e
、y
e
分别为变道过程结束时刻车辆的纵向速度以及横向位置。
[0016]进一步的,所述变道轨迹的约束为:
[0017][0018][0019]其中,纵向运动存在5个约束,即初始纵向状态约束和纵向目标状态约束,对于横向运动存在6个约束,即初始横向状态约束和横向目标状态约束;x
s
、v
s
、a
s
、y
s
、v
ys
、a
ys
分别为决策过程开始时刻车辆的纵向位置、纵向速度、纵向加速度、横向位置、横向速度以及横向加速度,即初始状态约束;T为变道过程的结束时刻;v
e
、y
e
分别为变道过程结束时刻车辆的纵向速度以及横向位置,为待定的目标状态约束。
[0020]进一步的,所述候选变道轨迹根据变道轨迹的约束方程,表示为一个纵向的4次多项式和一个横向的5次多项式,即:
[0021][0022]其中,x(t)为t时刻车辆的纵向位置,y(t)为t时刻车辆的横向位置。
[0023]进一步的,所述最大熵逆强化学习模型中,衡量驾驶安全的基函数基于跟车安全、交互安全和碰撞惩罚三方面的考虑构建得到:
[0024]f
s
(t)=(f
follow
(t),f
interaction
(t),f
collision
(t))
[0025]其中,f
s
(t)为衡量驾驶安全的基函数,f
follow
(t)为保证跟车安全的基函数,f
interaction
(t)为保证交互安全的基函数,f
collision
(t)表示发生碰撞的惩罚的基函数。
[0026]进一步的,所述保证跟车安全的基函数基于改进的碰撞时间MTTC构建:
[0027][0028][0029]Δv=v
f

v
r
[0030]Δa=a
f

a
r
[0031][0032][0033]其中,T
th
表示碰撞时间阈值,d表示前后车的相对距离,v
f
、v
r
分别表示前、后车的速度,a
f
、a
r
分别表示前、后车的加速度;
[0034]所述保证交互安全的基函数基于目标车道及本车道后车的纵向减速度之和构建:
[0035]f
interaction
(t)=

min(a
rx
(t),0)

min(a
trx
(t),0)
[0036]其中,a
rx
(t)、a
trx
(t)分别为本车道和目标车道的后车的加速度;
[0037]所述发生碰撞的惩罚的基函数为:
[0038][0039]进一步的,所述最大熵逆强化学习模型中,衡量个性化驾驶风格的基函数的构建过程为:设计一组函数组,基于人类驾驶员的示范轨迹计算函数组中各函数的函数值作为特征,并进行归一化处理,利用特征选取的分布式K

means聚类算法,对驾驶员驾驶风格进行分类,从函数组中选取对驾驶风格分类影响最大的特征对应的多个函数,组成衡量个性化驾驶风格的基函数。
[0040]进一步的,所述函数组中的函数包括纵向运动急动度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,包括以下步骤:S1、根据车辆变道行为决策的起点的车辆状态,构建变道轨迹的约束,通过遍历所有可能的变道行为决策的终点的车辆状态,生成候选变道轨迹;S2、构建最大熵逆强化学习模型,所述最大熵逆强化学习模型的奖励函数由一组基函数组成,基函数从驾驶安全、个性化驾驶风格两个方面进行设计,保证车辆变道的安全性和驾驶风格个性化,同时基函数的系数通过逆强化学习进行确定;S3、基于人类驾驶员示范轨迹对最大熵逆强化学习模型进行拟人化训练;S4、基于训练完成的最大熵逆强化学习模型的奖励函数对候选变道轨迹进行评估,选择最优变道轨迹。2.根据权利要求1所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述步骤S1中,在直线道路行驶时,变道行为决策后,车辆将进入稳定行驶的状态,近似于匀速直线运动,故目标状态空间为:其中,v
e
、y
e
分别为变道过程结束时刻车辆的纵向速度以及横向位置。3.根据权利要求1所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述变道轨迹的约束为:于,所述变道轨迹的约束为:其中,纵向运动存在5个约束,即初始纵向状态约束和纵向目标状态约束,对于横向运动存在6个约束,即初始横向状态约束和横向目标状态约束;x
s
、v
s
、a
s
、y
s
、v
ys
、a
ys
分别为决策过程开始时刻车辆的纵向位置、纵向速度、纵向加速度、横向位置、横向速度以及横向加速度,即初始状态约束;T为变道过程的结束时刻;v
e
、y
e
分别为变道过程结束时刻车辆的纵向速度以及横向位置,为待定的目标状态约束。4.根据权利要求3所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述候选变道轨迹根据变道轨迹的约束方程,表示为一个纵向的4次多项式和一个横向的5次多项式,即:
其中,x(t)为t时刻车辆的纵向位置,y(t)为t时刻车辆的横向位置。5.根据权利要求1所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述最大熵逆强化学习模型中,衡量驾驶安全的基函数基于跟车安全、交互安全和碰撞惩罚三方面的考虑构建得到:f
s
(t)=(f
follow
(t),f
interaction
(t),f
colliSion
(t))其中,f
s
(t)为衡量驾驶安全的基函数,f
follow
(t)为保证跟车安全的基函数,f
interaction
(t)为保证交互安全的基函数,f
collision
(t)表示发生碰撞的惩罚的基函数。6.根据权利要求5所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述保证跟车安全的基函数基于改进的碰撞时间MTTC构建:于,所述保证跟车安全的基函数基于改进的碰撞时间M...

【专利技术属性】
技术研发人员:褚洪庆庄和健高炳钊陈虹
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1