用于自动驾驶的强化学习模型的训练方法及会车方法技术

技术编号：46410810 阅读：6 留言：0更新日期：2025-09-16 19:58

本申请提供了一种用于自动驾驶的强化学习模型的训练方法及会车方法，该训练方法包括：获取当前仿真环境的初始状态空间参数输入到初始强化学习模型，初始强化学习模型输出控制目标车辆执行的预测动作。基于预测动作和其他车辆的执行动作，确定动作奖励。在控制目标车辆执行预测动作后，获取当前仿真环境的下一状态空间参数。重复执行将下一状态空间参数输入到初始强化学习模型以及后续的过程，直至结束该会车场景的会车过程。基于会车过程中的多个动作奖励，确定奖励函数。基于奖励函数对初始强化学习模型进行训练，得到训练好的目标强化学习模型。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自动驾驶，具体涉及一种用于自动驾驶的强化学习模型的训练方法及会车方法。

技术介绍

1、自动驾驶是指利用传感器、计算机视觉、人工智能和控制系统等技术，使车辆能够在没有人类驾驶员的情况下，自主感知环境、做出决策并完成驾驶任务的过程。会车场景作为常见的自动驾驶场景之一，特别是在狭窄路段、存在违停车辆、逆行超车等特殊情况下，导致自动驾驶决策任务极具挑战性。

2、当前会车场景下主流的自动驾驶方案是基于专家规则设计的自动驾驶算法，在设计专家规则时，可以参考交通规则，制定不同会车场景对应的解决方案，即自动驾驶算法(模型)，以便基于自动驾驶算法控制车辆完成会车任务。但是基于专家规则设计自动驾驶算法，需要预先考虑多种会车场景，针对不同的会车场景，人为设计自动驾驶算法，耗费较多的人力和时间。并且在设计中，需要根据自动驾驶算法的结果人为调整算法的参数或者逻辑，影响设计自动驾驶算法的准确性。

技术实现思路

1、有鉴于此，本申请致力于提供一种用于自动驾驶的强化学习模型的训练方法及会车方法，以便...

【技术保护点】

1.一种用于自动驾驶的强化学习模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述奖励函数对所述初始强化学习模型进行训练，得到训练好的目标强化学习模型，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述预测动作和所述其他车辆的执行动作，确定动作奖励，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述会车过程中的多个所述动作奖励，确定奖励函数，包括：

6.根据权利要求5所述的方法，其特征在于，当所述...

【技术特征摘要】

1.一种用于自动驾驶的强化学习模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述奖励函数对所述初始强化学习模型进行训练，得到训练好的目标强化学习模型，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述预测动作和所述其他车辆的执行动作，确定动作奖励，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述会车过程中的多个所述动作奖励，确...

【专利技术属性】
技术研发人员：余舒，崔卫卫，胡旭妍，张峥，林志华，杨波，邓博，
申请(专利权)人：上海智华智联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人