一种基于强化学习的自动驾驶决策不确定性估计方法技术

技术编号:39057474 阅读:12 留言:0更新日期:2023-10-12 19:50
本发明专利技术公开一种基于强化学习的自动驾驶决策不确定性估计方法,涉及自动驾驶技术领域,包括如下步骤:获取智能体相关数据,构建MDP模型;构建神经网络模型集合;构建神经网络模型集合,将状态s输入神经网络模型以获得行动

【技术实现步骤摘要】
一种基于强化学习的自动驾驶决策不确定性估计方法


[0001]本专利技术涉及自动驾驶
,具体涉及一种基于强化学习的自动驾驶决策不确定性估计方法。

技术介绍

[0002]自动驾驶技术,作为近年来的一大创新领域,具有深远的社会影响力,尤其在提升生产效率、增强能源使用效益、以及减少交通事故等方面,其潜力不可估量。然而,要实现自动驾驶,却面临着一个复杂且具有挑战性的决策任务,这是由于自动驾驶系统必须能够应对各种各样的环境,有效地与其他交通参与者进行交互,并处理传感器信息中存在的不确定性。
[0003]人为预测可能发生的所有情况并编写相应的行为响应,是既复杂又低效的,实际上,几乎是不可能实现的。因此,研究将目光转向了更为科学的机器学习方法,以此训练决策智能体程序。这样的智能体程序,其目标并不仅仅是输出推荐决策,更重要的是,它需要能够估计给定决策的不确定性。
[0004]在过去的十年里,强化学习技术在多个领域都取得了显著的进步和成功。这种学习方法的普遍性使其相比于非学习型方法更具优势,其广泛适用的特性使得它有潜力在各种驾驶情况中都发挥作用。历史上,强化学习已经被成功地应用于自动驾驶的决策制定过程中。例如,基于强化学习的Deep Q

Network(DQN)方法已经在高速公路驾驶和交叉口等场景中得到了广泛的应用。另外,策略梯度技术则被应用于处理复杂的交通合并情况,而蒙特卡罗树搜索与强化学习的结合也有其独特的优势。有一些前沿研究则进一步推进了强化学习的应用。他们首先在模拟环境中训练决策制定智能体,然后再将其部署到实际的车辆中。这样的方法可以充分借助模拟环境的优势,降低实际操作中的风险。另一些研究则选择针对特定的驾驶情况,在实际车辆中直接进行决策智能体的训练,以期达到更精准的效果。
[0005]总的来说,强化学习的独特优势使其在自动驾驶的决策制定过程中扮演了重要角色,并且在未来,它可能会对自动驾驶的发展产生更深远的影响。
[0006]在以往的研究中,通过强化学习训练出的智能体能够在接近训练数据的情况下做出合理的决策,这在一定程度上验证了强化学习技术在决策制定上的有效性。然而,一个明显的问题是,这些智能体无论面临何种情况,都会做出决策,但却不能提供有关决策不确定性的信息,也无法指示它们是否在训练过程中遇到过相似的情况,这样的问题,无疑在一定程度上限制了这类智能体在自动驾驶领域的应用效果。

技术实现思路

[0007]为解决
技术介绍
中提出的问题,本专利技术提出一种基于强化学习的自动驾驶决策不确定性估计方法,包括如下步骤:
[0008]获取智能体相关数据,构建MDP模型,所述MDP模型表示为(S,A,T,R,γ),其中S是状态空间,A是动作空间,T是状态转换模型,R是奖励模型,γ是折扣因子;
[0009]构建神经网络模型集合,将状态s输入神经网络模型以获得行动

价值函数Q,所述状态S包括自车状态以及周围车辆的状态;所述神经网络的架构包括:输入层,第一卷积层、第二卷积层、最大池化层、第一全连接层、第二全连接层、输出层和合并层;
[0010]合并层将自车状态和神经网络模型的输出层输出的Q值进行合并,得到最终的Q值;
[0011]每个独立的集合成员将Q值估计为
[0012][0013]其中,f和p是神经网络,具有可以进行训练的参数θ
k
和保持固定的参数β为平衡先验函数,k为索引;
[0014]智能体根据Q值选择最优行动,实现不确定性估计或自主驾驶决策。
[0015]具体地,所述状态空间包括自车状态和周围车辆的状态信息,包括但不限于位置、速度;动作空间包括智能体可以采取的所有行动的集合,包括但不限于加速、减速、保持车道或者变道;状态转移模型为车辆如何在道路上移动;奖励模型根据车辆的行驶速度、与其他车辆的距离等因素来计算奖励;折扣因子的值介于0

1之间,用于衡量未来奖励的重要性。
[0016]优选地,所述神经网络模型中,输入层接收自车和周围车辆的状态信息,第一卷积层使用32个大小为4的卷积核,第二卷积层使用大小为1的32个卷积核,第一全连接层使用64个神经元,第二全连接层使用64个神经元,输出层的输出结果为每个行动的Q值。
[0017]具体地,所述合并层将自车状态和神经网络模型的输出层输出的Q值进行合并,得到最终的Q值包括:
[0018]将自车状态向量和神经网络输出的Q值向量连接起来,形成一个新的向量;
[0019]将新向量输入到一个全连接层中,该全连接层只有一个单元;
[0020]全连接层的输出即为自车状态和神经网络输出的Q值的加权和,其中权重由一个可学习的参数控制。
[0021]具体地,所述神经网络模型的训练过程如下:
[0022]S1.初始化神经网络;
[0023]S2.初始化经验回放缓存;每个经验包括当前状态、采取的行动、获得的奖励、下一个状态和是否终止;
[0024]S3.选择行动;智能体根据当前状态和Q值函数选择一个行动,使用ε

greedy策略,以ε的概率随机选择一个行动,以1

ε的概率选择Q值最大的行动;
[0025]S4.执行行动并观察结果;智能体执行选择的行动,并观察下一个状态和获得的奖励;
[0026]S5.存储经验;将当前状态、采取的行动、获得的奖励、下一个状态和是否终止信息存储到经验回放缓存中;
[0027]S6.从经验回放缓存中随机采样一批经验;
[0028]S7.计算目标Q值;对于每个采样的经验,计算目标Q值:target Q(s,a)=r+γ*max(Q(s',a'))其中,r是获得的奖励,γ是折扣因子,max(Q(s',a'))是下一个状态s'下所有可能行动a'的最大Q值;
[0029]S8.计算损失函数;使用目标Q值和神经网络估计的Q值之间的均方误差作为损失函数更新神经网络的参数,
[0030][0031]S9.更新神经网络;使用反向传播算法更新神经网络的参数,以最小化损失函数;
[0032]S10.重复步骤S3

S9,直到达到预设的训练次数或者收敛;
[0033]使用不确定性阈值判断智能体是否对其决策有足够的信心,当时,表明(s,a)远离了训练分布,则在状态s下的行动a是不安全的,参数的值可以通过观察智能体的性能以及在训练分布内的测试阶段中选定行动的c
v
(s,a)的变化来确定;当时,表明在状态s下的行动a是安全的。
[0034]具体地,所述通过完全集成RPF方法训练神经网络具体为:
[0035]A.初始化θ
k
和为随机值;
[0036]B.为每一个k,设定一个空的经验集合m
k
={};
[0037]C.初始化步数计数器i=0;
[0038]D.当网络未收敛时执行步骤E
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,获取智能体相关数据,构建MDP模型,所述MDP模型表示为(S,A,T,R,γ),其中S是状态空间,A是动作空间,T是状态转换模型,R是奖励模型,γ是折扣因子;构建神经网络模型集合,将状态s输入神经网络模型以获得行动

价值函数Q,所述状态S包括自车状态以及周围车辆的状态;所述神经网络的架构包括:输入层,第一卷积层、第二卷积层、最大池化层、第一全连接层、第二全连接层、输出层和合并层;合并层将自车状态和神经网络模型的输出层输出的Q值进行合并,得到最终的Q值;每个独立的集合成员将Q值估计为其中,f和p是神经网络,具有可以进行训练的参数θ
k
和保持固定的参数β为平衡先验函数,k为索引;智能体根据Q值选择最优行动,实现不确定性估计。2.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述状态空间包括自车状态和周围车辆的状态信息,包括但不限于位置、速度;动作空间包括智能体可以采取的所有行动的集合,包括但不限于加速、减速、保持车道或者变道;状态转移模型为车辆如何在道路上移动;奖励模型根据车辆的行驶速度、与其他车辆的距离等因素来计算奖励;折扣因子的值介于0

1之间,用于衡量未来奖励的重要性。3.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述神经网络模型中,输入层接收自车和周围车辆的状态信息,第一卷积层使用32个大小为4的卷积核,第二卷积层使用大小为1的32个卷积核,第一全连接层使用64个神经元,第二全连接层使用64个神经元,输出层的输出结果为每个行动的Q值。4.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述合并层将自车状态和神经网络模型的输出层输出的Q值进行合并,得到最终的Q值包括:将自车状态向量和神经网络输出的Q值向量连接起来,形成一个新的向量;将新向量输入到一个全连接层中,该全连接层只有一个单元;全连接层的输出即为自车状态和神经网络输出的Q值的加权和,其中权重由一个可学习的参数控制。5.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述神经网络模型的训练过程如下:S1.初始化神经网络;S2.初始化经验回放缓存;每个经验包括当前状态、采取的行动、获得的奖励、下一个状态和是否终止;S3.选择行动;智能体根据当前状态和Q值函数选择一个行动,使用ε

greedy策略,以ε的概率随机选择一个行动,以1

ε的概率选择Q值最大的行动;S4.执行行动并观察结果;智能体执行选择的行动,并观察下一个状态和获得的奖励;S5.存储经验;将当前状态、采取的行动、获得的奖励、下一个状态和是否终止信息存储到经验回放缓存中;
S6.从经验回放缓存中随机采样一批经验;S7.计算目标Q值;对于每个采样的经验,计算目标Q值:target Q(s,a)=r+γ*max(Q(s',a'))其中,r是获得的奖励,γ是折扣因子,max(Q(s',a'))是下一个状态s'下所有可能行动a'的最大Q值;S8.计算损失函数;...

【专利技术属性】
技术研发人员:邹倩颖廖员
申请(专利权)人:四川吉利学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1