【技术实现步骤摘要】
一种基于强化学习的自动驾驶决策不确定性估计方法
[0001]本专利技术涉及自动驾驶
,具体涉及一种基于强化学习的自动驾驶决策不确定性估计方法。
技术介绍
[0002]自动驾驶技术,作为近年来的一大创新领域,具有深远的社会影响力,尤其在提升生产效率、增强能源使用效益、以及减少交通事故等方面,其潜力不可估量。然而,要实现自动驾驶,却面临着一个复杂且具有挑战性的决策任务,这是由于自动驾驶系统必须能够应对各种各样的环境,有效地与其他交通参与者进行交互,并处理传感器信息中存在的不确定性。
[0003]人为预测可能发生的所有情况并编写相应的行为响应,是既复杂又低效的,实际上,几乎是不可能实现的。因此,研究将目光转向了更为科学的机器学习方法,以此训练决策智能体程序。这样的智能体程序,其目标并不仅仅是输出推荐决策,更重要的是,它需要能够估计给定决策的不确定性。
[0004]在过去的十年里,强化学习技术在多个领域都取得了显著的进步和成功。这种学习方法的普遍性使其相比于非学习型方法更具优势,其广泛适用的特性使得它有潜力在各种驾驶情况中都发挥作用。历史上,强化学习已经被成功地应用于自动驾驶的决策制定过程中。例如,基于强化学习的Deep Q
‑
Network(DQN)方法已经在高速公路驾驶和交叉口等场景中得到了广泛的应用。另外,策略梯度技术则被应用于处理复杂的交通合并情况,而蒙特卡罗树搜索与强化学习的结合也有其独特的优势。有一些前沿研究则进一步推进了强化学习的应用。他们首先在模拟环境中训练决策制定智能
【技术保护点】
【技术特征摘要】
1.一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,获取智能体相关数据,构建MDP模型,所述MDP模型表示为(S,A,T,R,γ),其中S是状态空间,A是动作空间,T是状态转换模型,R是奖励模型,γ是折扣因子;构建神经网络模型集合,将状态s输入神经网络模型以获得行动
‑
价值函数Q,所述状态S包括自车状态以及周围车辆的状态;所述神经网络的架构包括:输入层,第一卷积层、第二卷积层、最大池化层、第一全连接层、第二全连接层、输出层和合并层;合并层将自车状态和神经网络模型的输出层输出的Q值进行合并,得到最终的Q值;每个独立的集合成员将Q值估计为其中,f和p是神经网络,具有可以进行训练的参数θ
k
和保持固定的参数β为平衡先验函数,k为索引;智能体根据Q值选择最优行动,实现不确定性估计。2.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述状态空间包括自车状态和周围车辆的状态信息,包括但不限于位置、速度;动作空间包括智能体可以采取的所有行动的集合,包括但不限于加速、减速、保持车道或者变道;状态转移模型为车辆如何在道路上移动;奖励模型根据车辆的行驶速度、与其他车辆的距离等因素来计算奖励;折扣因子的值介于0
‑
1之间,用于衡量未来奖励的重要性。3.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述神经网络模型中,输入层接收自车和周围车辆的状态信息,第一卷积层使用32个大小为4的卷积核,第二卷积层使用大小为1的32个卷积核,第一全连接层使用64个神经元,第二全连接层使用64个神经元,输出层的输出结果为每个行动的Q值。4.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述合并层将自车状态和神经网络模型的输出层输出的Q值进行合并,得到最终的Q值包括:将自车状态向量和神经网络输出的Q值向量连接起来,形成一个新的向量;将新向量输入到一个全连接层中,该全连接层只有一个单元;全连接层的输出即为自车状态和神经网络输出的Q值的加权和,其中权重由一个可学习的参数控制。5.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法,其特征在于,所述神经网络模型的训练过程如下:S1.初始化神经网络;S2.初始化经验回放缓存;每个经验包括当前状态、采取的行动、获得的奖励、下一个状态和是否终止;S3.选择行动;智能体根据当前状态和Q值函数选择一个行动,使用ε
‑
greedy策略,以ε的概率随机选择一个行动,以1
‑
ε的概率选择Q值最大的行动;S4.执行行动并观察结果;智能体执行选择的行动,并观察下一个状态和获得的奖励;S5.存储经验;将当前状态、采取的行动、获得的奖励、下一个状态和是否终止信息存储到经验回放缓存中;
S6.从经验回放缓存中随机采样一批经验;S7.计算目标Q值;对于每个采样的经验,计算目标Q值:target Q(s,a)=r+γ*max(Q(s',a'))其中,r是获得的奖励,γ是折扣因子,max(Q(s',a'))是下一个状态s'下所有可能行动a'的最大Q值;S8.计算损失函数;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。