当前位置: 首页 > 专利查询>重庆大学专利>正文

一种实现自动驾驶汽车行为决策的方法技术

技术编号:34481528 阅读:22 留言:0更新日期:2022-08-10 08:58
本发明专利技术涉及一种实现自动驾驶汽车行为决策的方法,属于自动驾驶汽车技术领域。该方法包括:S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景;S2:构建隐式分位数网络模型,包括构建状态空间、动作空间和奖励函数;S3:使用神经网络优化步骤S2构建的隐式分位数网络模型;S4:根据步骤S3优化后隐式分位数网络模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策。本发明专利技术能够感知环境中的不确定性因素带来的风险,提升了自动驾驶汽车在通行有信号灯十字路口的安全性。性。性。

【技术实现步骤摘要】
一种实现自动驾驶汽车行为决策的方法


[0001]本专利技术属于自动驾驶汽车
,涉及一种实现自动驾驶汽车行为决策的方法。

技术介绍

[0002]自动驾驶汽车在实际环境中运行时,其决策系统需要考虑环境的各种因素,包括周围车辆与行人等。然而,在面临复杂行驶工况时,如何确保自动驾驶汽车的行驶安全性仍未解决。特别在有信号灯十字路口,如何在行为决策系统中考虑周围车辆与行人的违规行为,如闯红灯等危险行为对于提升自动驾驶车辆的安全性十分重要。
[0003]现阶段,面向自动驾驶汽车十字路口的决策方法主要包括:基于规则的决策方法、基于部分可观测马尔科夫的决策方法,以及基于深度强化学习的决策方法。目前,为提升自动驾驶决策系统对于复杂交通场景的适应性,基于深度强化学习的方法被广泛采用。此类方法相较于基于规则的决策方法的优势在于:其可以避免基于规则算法所带来的繁杂设计步骤以及调参工作。此外,它能解决可观测马尔科夫方法难以适应大规模决策的问题。一般地,基于深度强化学习的决策方法通过汽车与环境不断交互产生驾驶数据,自主学习出适应复杂环境的决策策略,代表性决策方法有深度Q学习网络(DQN),软性演员

评论家(SAC)等。然而,这些方法几乎没有在有信号灯十字路口考虑交通参与者的违规行为,难以保障车辆在通行十字路口时的行驶安全性。
[0004]因此,亟需一种能够考虑交通参与者违规行为的安全决策方法,以保障自动驾驶车辆的安全。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种实现自动驾驶汽车行为决策的方法,能够感知环境中的不确定性因素带来的风险,还能够提升自动驾驶汽车在通行有信号灯十字路口的安全性。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种实现自动驾驶汽车行为决策的方法,包括以下步骤:
[0008]S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景;
[0009]S2:构建隐式分位数网络(IQN)模型,包括构建状态空间、动作空间和奖励函数;
[0010]S3:使用神经网络优化步骤S2构建的隐式分位数网络(IQN)模型;
[0011]S4:根据步骤S3优化后隐式分位数网络(IQN)模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策。
[0012]进一步,步骤S1具体包括以下步骤:
[0013]S11:设定行人模型:采用如下运动学模型描述仿真训练场景中的行人运动轨迹;
[0014][0015][0016][0017]其中,v
p
为行人前行速度,ω
p
为角速度,x
p
、y
p
、θ
p
分别为行人重心的横坐标、纵坐标以及航向角;分别为x、y、θ、v的导数;
[0018]S12:设定周围车辆模型,规定仿真训练场景中,自车及周围车辆的运动皆由如下方程描述:
[0019][0020][0021][0022][0023][0024]其中,x、y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,l
f
、l
r
分别为车辆质心至车辆前轴、后轴的距离,δ
f
为车辆前轮转向角,a
c
为车辆加速度;分别为x、y、θ、v的导数;
[0025]为使得仿真训练场景中的周围车辆能够与自车进行交互,规定周围机动车辆由速度差模型(Velocity Difference Model)进行控制:
[0026]a
c
=k[V

v+λΔv][0027]V=V1+V2tanh[C1(x
front
+L
length,front

x)+C2][0028]其中,k为敏感系数,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1、V2、C1、C2为自定义参数,一般可通过实验获取;x
front
为周围车辆质心的横向坐标,L
length,front
为周围车辆的车身长度,x为车辆质心的横向坐标;
[0029]S13:设定周围机动车辆、行人行为类型;
[0030]为了模拟真实交通场景,将周围机动车辆、行人行为类型设定为:常规车辆、常规行人、违规车辆、违规行人四类。具体地,常规车辆将遵守红绿灯规则,违规车辆不会遵守红绿灯规则,即会发生红灯闯行的行为;常规行人将遵守红绿灯规则,违规行人不会遵守红绿灯规则,即会发生红灯闯行的行为。在仿真环境运行时,在每个仿真时刻,随机抽取常规车辆、常规行人、违规车辆、违规行人四类的一种加入仿真环境。
[0031]S14:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度;仿真环境在每个仿真时刻t输出环境信息E,定义为:
[0032]E={E
e
,E
s1
,E
s2
,...,E
si
,...,E
p1
,E
p2
,...,E
pi
,...,traffic_light}
si=1,2,...,ns,pi=1,2,...,np
[0033]E
e
={x
e
,y
e
,v
e

e
}
[0034]E
vi
={x
si
,y
si
,v
si

si
}
[0035]E
pi
={x
pi
,y
pi
,v
pi

pi
}
[0036]其中,下标e表示自车;下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量;下标pi表示第pi个行人,即p1为第一个行人,np表示行人数
量;x
e
,y
e
,v
e

e
分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角;x
vi
,y
vi
,v
vi

vi
分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角;x
pi
,y
pi
,v
pi

pi
分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角;traffic_light表示交通信号灯状态。
[0037]进一步,步骤S2中,
[0038]1)构建的状态空间S包括:自车的位置(x
e
,y
e
)、速度v
e...

【技术保护点】

【技术特征摘要】
1.一种实现自动驾驶汽车行为决策的方法,其特征在于,该方法包括以下步骤:S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景;S2:构建隐式分位数网络模型,包括构建状态空间、动作空间和奖励函数;S3:使用神经网络优化步骤S2构建的隐式分位数网络模型;S4:根据步骤S3优化后隐式分位数网络模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策。2.根据权利要求1所述的实现自动驾驶汽车行为决策的方法,其特征在于,步骤S1具体包括以下步骤:S11:设定行人模型:采用运动学模型描述仿真训练场景中的行人运动轨迹;S11:设定行人模型:采用运动学模型描述仿真训练场景中的行人运动轨迹;S11:设定行人模型:采用运动学模型描述仿真训练场景中的行人运动轨迹;其中,v
p
为行人前行速度,ω
p
为角速度,x
p
、y
p
、θ
p
分别为行人重心的横坐标、纵坐标以及航向角;分别为x
p
、y
p
、θ
p
的导数;S12:设定周围车辆模型,规定仿真训练场景中,自车及周围车辆的运动皆由如下方程描述:描述:描述:描述:描述:其中,x、y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,l
f
、l
r
分别为车辆质心至车辆前轴、后轴的距离,δ
f
为车辆前轮转向角,a
c
为车辆加速度;分别为x、y、θ、v的导数;为使得仿真训练场景中的周围车辆能够与自车进行交互,规定周围机动车辆由速度差模型进行控制:a
c
=k[V

v+λΔv]V=V1+V2tanh[C1(x
front
+L
length,front

x)+C2]其中,k为敏感系数,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1、V2、C1、C2为自定义参数,x
front
为周围车辆质心的横向坐标,L
length,front
为周围车辆的车身长度,x为车辆质心的横向坐标;S13:设定周围机动车辆、行人行为类型,包括:常规车辆、常规行人、违规车辆、违规行人四类;S14:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度;仿真环境在每个仿真时刻t输出环境信息E,定义为:
E={E
e
,E
s1
,E
s2
,...,E
si
,...,E
p1
,E
p2
,...,E
pi
,...,traffic_light}
si=1,2,...,ns,pi=1,2,...,np
E
e
={x
e
,y
e
,v
e
,θ
e
}E
vi
={x
si
,y
si
,v
si
,θ
si
}E
pi
={x
pi
,y
pi
,v
pi
,θ
pi
}其中,下标e表示自车;下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量;下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量;x
e
,y
e
,v
e
,θ
e
分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角;x
vi
,y
vi
,v
vi
,θ
vi
分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角;x
pi
,y
pi
,v
pi
,θ
pi
分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角;traffic_light表示交通信号灯状态。3.根据权利要求2所述的实现自动驾驶汽车行为决策的方法,其特征在于,步骤S2中,1)构建的状态空间S包括:自车的位置(x
e
,y
e
)、速度v
e
、横摆角θ
e
,周围车辆相对于自车的相对位置(Δx
si
,Δy
si
)、相对速度Δv
si
及其相对横摆角Δθ
si
,周围行人相对于自车的相对位置(Δx
pi
,Δy
pi
)、相对速度Δv
pi
及其相对横摆角Δθ
pi
,即状态空间S表示为:S={s
e
,s
s1
,s
...

【专利技术属性】
技术研发人员:唐小林杨凯李深汪锋沈子超邓忠伟胡晓松李佳承
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1