当前位置: 首页 > 专利查询>同济大学专利>正文

一种可解释的自动驾驶决策系统及其方法技术方案

技术编号:36706213 阅读:71 留言:0更新日期:2023-03-01 09:28
本发明专利技术涉及一种可解释的自动驾驶决策系统及其方法,该系统包括自动驾驶决策模块和DeepSHAP模块,该方法包括:根据驾驶场景,确定自动驾驶决策模块的决策向量以及状态向量,并构建深度Q网络模型;从交通环境中提取出关键特征向量,输入深度Q网络模型,输出得到对应的决策指令,并传输给车辆控制模块执行、同时车载感知模块输出相应背景数据集;将背景数据集与深度Q网络模型共同作为DeepSHAP模块的输入,由DeepSHAP模块计算出背景数据集中所有特征的Shapley value,并传输至车载人机交互单元进行展示。与现有技术相比,本发明专利技术能够从局部解释、全局解释和特征依赖分析三个方面向用户直观解释自动驾驶决策的输入与输出映射关系,提高用户对自动驾驶决策的理解与信任。提高用户对自动驾驶决策的理解与信任。提高用户对自动驾驶决策的理解与信任。

【技术实现步骤摘要】
一种可解释的自动驾驶决策系统及其方法


[0001]本专利技术涉及自动驾驶
,尤其是涉及一种可解释的自动驾驶决策系统及其方法。

技术介绍

[0002]高度自动化驾驶被认为是未来智能出行的趋势,因为它可以减少人力和成本,提高安全性和可靠性,减少排放和能源消耗。目前,自动驾驶汽车中的大多数决策系统都使用预先设计好的、人工输入密集的、高度模块化的基于规则/模型的算法。
[0003]然而,在现实环境中,基于规则/模型的框架很难将人类启发式策略推广到无穷无尽的新场景和任务中,导致这种决策方式受到极大限制;另一方面,结合了强化学习和深度学习的深度强化学习已经成为最近人工智能领域的热点,并在自动驾驶汽车方面展现出惊人的潜力,如深度强化学习已成功地训练智能赛车,使其比人类顶级赛车手驾驶的更好,或训练智能环境,加速测试和评估过程。尽管深度强化学习技术在自动驾驶应用方面取得了突破性的进展,但基于深度强化学习的自动驾驶决策技术能否在现实世界中成功部署,很大程度上还是取决于用户的接受度和信任度。由于深度强化学习中使用的神经网络具有黑匣子性质,使得社会公众对其仍然存在质疑。因此,有必要设计可解释框架,能够向用户解释基于深度强化学习的自动驾驶决策,从而增强驾乘人员对自动驾驶系统的信任度。

技术实现思路

[0004]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种可解释的自动驾驶决策系统及其方法,能够向用户直观解释自动驾驶决策的输入与输出映射关系,提高用户对自动驾驶决策的理解与信任。
[0005]本专利技术的目的可以通过以下技术方案来实现:一种可解释的自动驾驶决策系统,包括自动驾驶决策模块和DeepSHAP模块,所述自动驾驶决策模块分别与车辆控制模块、车载感知模块、DeepSHAP模块相连接,所述DeepSHAP模块与车载人机交互单元相连接,所述自动驾驶决策模块基于深度Q网络模型,结合车载感知模块采集的交通环境特征向量,输出得到相应的决策指令、并传输给车辆控制模块执行;
[0006]所述DeepSHAP模块用于计算由深度Q网络模型与交通环境交互产生数据对应的Shapley value,并传输给车载人机交互单元进行展示。
[0007]进一步地,所述车辆控制模块包括横向控制模块和纵向控制模块。
[0008]一种可解释的自动驾驶决策方法,包括以下步骤:
[0009]S1、根据驾驶场景,确定自动驾驶决策模块的决策向量以及状态向量,并采用深度Q网络算法训练神经网络,构建深度Q网络模型;
[0010]S2、从交通环境中提取出关键特征向量,输入深度Q网络模型,输出得到对应的决策指令,并传输给车辆控制模块执行;
[0011]S3、车辆控制模块执行决策指令的同时,车载感知模块输出相应背景数据集;
[0012]S4、将背景数据集与深度Q网络模型共同作为DeepSHAP模块的输入,由DeepSHAP模块计算出背景数据集中所有特征的Shapley value,并传输至车载人机交互单元进行展示。
[0013]进一步地,所述步骤S1中驾驶场景为典型双车道驾驶场景,确定出自动驾驶决策模块的决策集合具体为:
[0014]A={a
left
,a
idle
,a
right
}
[0015]其中,A为决策集合,a
left
表示左换道,a
idle
表示保持当前动作,a
right
表示右换道;
[0016]自动驾驶决策模块的状态向量具体为:
[0017]S=[n
ego
,n
lat
,d][0018][0019][0020]其中,S为状态向量,d表示自车与周车的相对距离,n
ego
表示自车所在车道,n
lat
表示周车所在车道。
[0021]进一步地,所述步骤S1中构建深度Q网络模型的具体过程为:
[0022]采用深度Q网络算法训练神经网络,以近似动作价值函Q(s
t
,a
t
),其中,神经网络为4层全连接网络,在深度Q网络算法中,Q(s
t
,a
t
)定义为从t时刻开始,以状态s
t
为输入,在策略π下采取决策a
t
所获得的累计回报:
[0023][0024]r=w1r1+w2r2[0025][0026][0027]其中,γ∈(0,1)表示折扣因子,r为奖励函数,r1表示碰撞惩罚,w1为r1对应的权重,r2表示换道惩罚,w2为r2对应的权重。
[0028]进一步地,所述步骤S2中关键特征向量包括自车所在车道、周车所在车道、自车与周车之间的距离。
[0029]进一步地,所述步骤S2的具体过程为:根据车载感知模块采集的当前状态数据,从环境中提取出关键的特征向量,通过贪婪策略选取出使得Q函数最大的决策,以作为自动驾驶车辆的当前决策,进而将决策量传递给车辆控制模块执行。
[0030]进一步地,所述步骤S4中DeepSHAP模块的工作过程为:
[0031]给定一个参考特征向量r,一个被解释特征向量x和对应模型v(
·
),得到:
[0032]Δy=v(x)

v(r)
[0033]Δx
i
=x
i

r
i
[0034]其中,x
i
表示第i个特征,r
i
表示第i个参考特征;
[0035]采用一个L层的前馈神经网络v
NN
(
·
)来表示模型v(x):
[0036][0037][0038]其中,g
l
(
·
)表示具有n
l
个神经元的第l个神经网络层;
[0039]再通过链式法则和线性近似,计算得到特征重要性值,即Shapley value。
[0040]进一步地,所述Shapley value具体为:
[0041][0042][0043][0044]其中,为第i个特征的Shapley value,表示在第l层的第j
l
个神经元关于第i个特征x
i
的Shapley value,表示第l层的第j
l
个神经元对应的乘子,表示对第i个特征x
i
的累积乘子。
[0045]进一步地,若前馈神经网络的神经元为线性函数则通过以下公式进行Shapley value的计算:
[0046]Linear:
[0047]若前馈神经网络的神经元为ReLU激活函数则通过以下公式进行Shapley value的计算:
[0048]ReLU:
[0049]与现有技术相比,本专利技术通过设置自动驾驶决策模块和DeepSHAP模块,利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
其中,γ∈(0,1)表示折扣因子,r为奖励函数,r1表示碰撞惩罚,w1为r1对应的权重,r2表示换道惩罚,w2为r2对应的权重。6.根据权利要求3所述的一种可解释的自动驾驶决策方法,其特征在于,所述步骤S2中关键特征向量包括自车所在车道、周车所在车道、自车与周车之间的距离。7.根据权利要求3所述的一种可解释的自动驾驶决策方法,其特征在于,所述步骤S2的具体过程为:根据车载感知模块采集的当前状态数据,从环境中提取出关键的特征向量,通过贪婪策略选取出使得Q函数最大的决策,以作为自动驾驶车辆的当前决策,进而将决策量传递给车辆控制模块执行。8.根据权利要求3所述的一种可解释的自动驾驶决策方法,其特征在于,所述步骤S4中DeepSHAP模块的工作过程为:给定一个参考特征向量r,一个被解释特征向量x和对应模型v(
·
),得到:Δy=v(x)

v(r)Δx
i
=x
i

r
i
其中,x
i
表示第i个特征,r
i
表示第i个参考特征;采用一个L层的前馈神经...

【专利技术属性】
技术研发人员:陈虹崔志浩李蒙黄岩军王宇雷
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1