一种基于强化学习的自动驾驶决策不确定性估计方法技术

技术编号：39057474 阅读：12 留言：0更新日期：2023-10-12 19:50

本发明专利技术公开一种基于强化学习的自动驾驶决策不确定性估计方法，涉及自动驾驶技术领域，包括如下步骤：获取智能体相关数据，构建MDP模型；构建神经网络模型集合；构建神经网络模型集合，将状态s输入神经网络模型以获得行动

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的自动驾驶决策不确定性估计方法

[0001]本专利技术涉及自动驾驶
，具体涉及一种基于强化学习的自动驾驶决策不确定性估计方法。

技术介绍

[0002]自动驾驶技术，作为近年来的一大创新领域，具有深远的社会影响力，尤其在提升生产效率、增强能源使用效益、以及减少交通事故等方面，其潜力不可估量。然而，要实现自动驾驶，却面临着一个复杂且具有挑战性的决策任务，这是由于自动驾驶系统必须能够应对各种各样的环境，有效地与其他交通参与者进行交互，并处理传感器信息中存在的不确定性。
[0003]人为预测可能发生的所有情况并编写相应的行为响应，是既复杂又低效的，实际上，几乎是不可能实现的。因此，研究将目光转向了更为科学的机器学习方法，以此训练决策智能体程序。这样的智能体程序，其目标并不仅仅是输出推荐决策，更重要的是，它需要能够估计给定决策的不确定性。
[0004]在过去的十年里，强化学习技术在多个领域都取得了显著的进步和成功。这种学习方法的普遍性使其相比于非学习型方法更具优势，其广泛适用的特性使得它有潜力在各种驾驶情况中都发挥作用。历史上，强化学习已经被成功地应用于自动驾驶的决策制定过程中。例如，基于强化学习的Deep Q
‑
Network(DQN)方法已经在高速公路驾驶和交叉口等场景中得到了广泛的应用。另外，策略梯度技术则被应用于处理复杂的交通合并情况，而蒙特卡罗树搜索与强化学习的结合也有其独特的优势。有一些前沿研究则进一步推进了强化学习的应用。他们首先在模拟环境中训练决策制定智能

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的自动驾驶决策不确定性估计方法，其特征在于，获取智能体相关数据，构建MDP模型，所述MDP模型表示为(S,A,T,R,γ)，其中S是状态空间，A是动作空间，T是状态转换模型，R是奖励模型，γ是折扣因子；构建神经网络模型集合，将状态s输入神经网络模型以获得行动
‑
价值函数Q，所述状态S包括自车状态以及周围车辆的状态；所述神经网络的架构包括：输入层，第一卷积层、第二卷积层、最大池化层、第一全连接层、第二全连接层、输出层和合并层；合并层将自车状态和神经网络模型的输出层输出的Q值进行合并，得到最终的Q值；每个独立的集合成员将Q值估计为其中，f和p是神经网络，具有可以进行训练的参数θ
k
和保持固定的参数β为平衡先验函数，k为索引；智能体根据Q值选择最优行动，实现不确定性估计。2.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法，其特征在于，所述状态空间包括自车状态和周围车辆的状态信息，包括但不限于位置、速度；动作空间包括智能体可以采取的所有行动的集合，包括但不限于加速、减速、保持车道或者变道；状态转移模型为车辆如何在道路上移动；奖励模型根据车辆的行驶速度、与其他车辆的距离等因素来计算奖励；折扣因子的值介于0
‑
1之间，用于衡量未来奖励的重要性。3.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法，其特征在于，所述神经网络模型中，输入层接收自车和周围车辆的状态信息，第一卷积层使用32个大小为4的卷积核，第二卷积层使用大小为1的32个卷积核，第一全连接层使用64个神经元，第二全连接层使用64个神经元，输出层的输出结果为每个行动的Q值。4.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法，其特征在于，所述合并层将自车状态和神经网络模型的输出层输出的Q值进行合并，得到最终的Q值包括：将自车状态向量和神经网络输出的Q值向量连接起来，形成一个新的向量；将新向量输入到一个全连接层中，该全连接层只有一个单元；全连接层的输出即为自车状态和神经网络输出的Q值的加权和，其中权重由一个可学习的参数控制。5.根据权利要求1所述的一种基于强化学习的自动驾驶决策不确定性估计方法，其特征在于，所述神经网络模型的训练过程如下：S1.初始化神经网络；S2.初始化经验回放缓存；每个经验包括当前状态、采取的行动、获得的奖励、下一个状态和是否终止；S3.选择行动；智能体根据当前状态和Q值函数选择一个行动，使用ε
‑
greedy策略，以ε的概率随机选择一个行动，以1
‑
ε的概率选择Q值最大的行动；S4.执行行动并观察结果；智能体执行选择的行动，并观察下一个状态和获得的奖励；S5.存储经验；将当前状态、采取的行动、获得的奖励、下一个状态和是否终止信息存储到经验回放缓存中；
S6.从经验回放缓存中随机采样一批经验；S7.计算目标Q值；对于每个采样的经验，计算目标Q值：target Q(s,a)＝r+γ*max(Q(s',a'))其中，r是获得的奖励，γ是折扣因子，max(Q(s',a'))是下一个状态s'下所有可能行动a'的最大Q值；S8.计算损失函数；...

【专利技术属性】
技术研发人员：邹倩颖，廖员，
申请(专利权)人：四川吉利学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人