【技术实现步骤摘要】
一种基于驾驶员个性化的拟人变道轨迹优化方法
[0001]本专利技术涉及自动驾驶汽车行为决策
,尤其是涉及一种基于驾驶员个性化的拟人变道轨迹优化方法。
技术介绍
[0002]自动驾驶是近年来学术界和业界广泛研究的热门话题。随着技术的发展,可以预见在未来,将有越来越多的自动驾驶汽车出现在道路上。但现阶段,人们对自动驾驶汽车的接受程度并不高。其中很大的原因是自动驾驶汽车与人类驾驶员所作出的驾驶行为较为不一致,不能实现拟人驾驶。研究表明,自动驾驶汽车的行为越像人类驾驶员的行为,人们对自动驾驶汽车的信任度越高。因而自动驾驶汽车的驾驶行为应尽可能像人类驾驶员的驾驶行为,从而使得自动驾驶汽车能被更多人接纳。
[0003]对于类人驾驶行为模拟,随着人工智能的发展,目前主要有两种方法:模仿学习和逆强化学习。模仿学习,直接学习人类的驾驶行为。而逆强化学习通过学习人类驾驶行为背后的奖励函数,进而通过奖励函数学习最优行为策略。由于奖励函数相比直接学习具体的行为,本质上更具可转移性,因而逆强化学习的泛化性通常较强。通常逆强化学习与强化学习结合,通过逆强化学习得到奖励函数,再通过强化学习根据这一奖励函数寻找最优策略。但是这种方法,使得模型较为复杂,计算量较大,对自动驾驶汽车的应用提出了挑战。
[0004]同时,随着社会科技的发展,人们越来越偏向于产品实现个性化,能够根据自己的需求定制产品。放在自动驾驶汽车上,便是人们希望自动驾驶汽车能够按照他们期望的驾驶风格进行驾驶。驾驶风格是人类驾驶员驾驶行为的概况,反应了人类驾驶员的驾 ...
【技术保护点】
【技术特征摘要】
1.一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,包括以下步骤:S1、根据车辆变道行为决策的起点的车辆状态,构建变道轨迹的约束,通过遍历所有可能的变道行为决策的终点的车辆状态,生成候选变道轨迹;S2、构建最大熵逆强化学习模型,所述最大熵逆强化学习模型的奖励函数由一组基函数组成,基函数从驾驶安全、个性化驾驶风格两个方面进行设计,保证车辆变道的安全性和驾驶风格个性化,同时基函数的系数通过逆强化学习进行确定;S3、基于人类驾驶员示范轨迹对最大熵逆强化学习模型进行拟人化训练;S4、基于训练完成的最大熵逆强化学习模型的奖励函数对候选变道轨迹进行评估,选择最优变道轨迹。2.根据权利要求1所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述步骤S1中,在直线道路行驶时,变道行为决策后,车辆将进入稳定行驶的状态,近似于匀速直线运动,故目标状态空间为:其中,v
e
、y
e
分别为变道过程结束时刻车辆的纵向速度以及横向位置。3.根据权利要求1所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述变道轨迹的约束为:于,所述变道轨迹的约束为:其中,纵向运动存在5个约束,即初始纵向状态约束和纵向目标状态约束,对于横向运动存在6个约束,即初始横向状态约束和横向目标状态约束;x
s
、v
s
、a
s
、y
s
、v
ys
、a
ys
分别为决策过程开始时刻车辆的纵向位置、纵向速度、纵向加速度、横向位置、横向速度以及横向加速度,即初始状态约束;T为变道过程的结束时刻;v
e
、y
e
分别为变道过程结束时刻车辆的纵向速度以及横向位置,为待定的目标状态约束。4.根据权利要求3所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述候选变道轨迹根据变道轨迹的约束方程,表示为一个纵向的4次多项式和一个横向的5次多项式,即:
其中,x(t)为t时刻车辆的纵向位置,y(t)为t时刻车辆的横向位置。5.根据权利要求1所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述最大熵逆强化学习模型中,衡量驾驶安全的基函数基于跟车安全、交互安全和碰撞惩罚三方面的考虑构建得到:f
s
(t)=(f
follow
(t),f
interaction
(t),f
colliSion
(t))其中,f
s
(t)为衡量驾驶安全的基函数,f
follow
(t)为保证跟车安全的基函数,f
interaction
(t)为保证交互安全的基函数,f
collision
(t)表示发生碰撞的惩罚的基函数。6.根据权利要求5所述的一种基于驾驶员个性化的拟人变道轨迹优化方法,其特征在于,所述保证跟车安全的基函数基于改进的碰撞时间MTTC构建:于,所述保证跟车安全的基函数基于改进的碰撞时间M...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。