使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理制造技术

技术编号：26595993 阅读：23 留言：0更新日期：2020-12-04 21:17

在一个实施方式中，系统生成多个驱动驾驶场景来训练强化学习(RL)代理并重放每个驱动驾驶场景以通过以下操作训练RL代理：将RL算法应用于驱动驾驶场景的初始状态，以从ADV的多个离散的控制/动作选项中确定多个控制动作，以达到基于多个离散的轨迹状态选项的多个轨迹状态，对于每个控制/动作确定通过RL算法的回报预测，确定轨迹状态的判断分数，并基于判断分数更新RL代理。

全部详细技术资料下载

【技术实现步骤摘要】
使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理
本公开的实施方式总体涉及操作自动驾驶车辆。更具体地，本公开的实施方式涉及使用强化学习来加速用于自动驾驶车辆的轨迹规划的离线代理。
技术介绍
以自动驾驶模式运行(例如，无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时，车辆可使用车载传感器导航到各个位置，从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。运动规划和控制是自动驾驶中的关键操作。然而，传统的运动规划操作主要从其曲率和速度估计完成给定路径的难度，而不考虑不同类型车辆的特征差异。同样的运动规划与控制应用于所有类型的车辆，在某些情况下可能不准确和平滑。轨迹通常是基于在高清晰度(HD)地图内预先标记的车道/参考线来规划的。这种处理限制了具有完全自动驾驶的自动驾驶车辆的适用场景，例如，在开放空间场景中，其中模型必须在没有参考车道的情况下规划轨迹(例如，停车、U形转弯或三点转弯)，同时避免碰撞。
技术实现思路
在本公开的一方面，提供了一种训练用于自动驾驶的强化学习代理的计算机实施的方法，所述方法包括：生成多个驾驶场景以训练用于自动驾驶的强化学习(RL)代理；以及重播所述驾驶场景中的每个以通过以下操作来训练所述RL代理，将RL算法应用于所述驾驶场景的初始状态，以从多个离散的控制动作选项确定多个控制动作，以从多个离散的轨迹状态选项达到多个轨迹状态；对于所述多个控制动作中的每个，使用所述RL算法确...

【技术保护点】
1.一种训练用于自动驾驶的强化学习代理的计算机实施的方法，所述方法包括：/n生成多个驾驶场景以训练用于自动驾驶的强化学习代理；以及/n重播所述驾驶场景中的每个以通过以下操作来训练所述强化学习代理，/n将强化学习算法应用于所述驾驶场景的初始状态，以从多个离散的控制动作选项确定多个控制动作，以从多个离散的轨迹状态选项达到多个轨迹状态；/n对于所述多个控制动作中的每个，使用所述强化学习算法确定奖励预测；/n确定所述多个轨迹状态的判断分数；以及/n基于所述判断分数更新所述强化学习代理，其中，所述强化学习代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。/n

【技术特征摘要】
20190515 US 16/413,3391.一种训练用于自动驾驶的强化学习代理的计算机实施的方法，所述方法包括：
生成多个驾驶场景以训练用于自动驾驶的强化学习代理；以及
重播所述驾驶场景中的每个以通过以下操作来训练所述强化学习代理，
将强化学习算法应用于所述驾驶场景的初始状态，以从多个离散的控制动作选项确定多个控制动作，以从多个离散的轨迹状态选项达到多个轨迹状态；
对于所述多个控制动作中的每个，使用所述强化学习算法确定奖励预测；
确定所述多个轨迹状态的判断分数；以及
基于所述判断分数更新所述强化学习代理，其中，所述强化学习代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。

2.根据权利要求1所述的方法，其中，基于用于自动驾驶的车辆动力学模型生成所述多个离散的控制动作选项。

3.根据权利要求1所述的方法，其中，通过根据最终目的地轨迹状态对每个所述驾驶场景的感兴趣区域进行离散化而生成所述多个离散的轨迹状态选项。

4.根据权利要求1所述的方法，其中，所述判断分数包括表示第一轨迹是否结束于计划目的地状态、所述第一轨迹是否平滑、以及所述第一轨迹是否避开环境模型的一个或多个障碍物的分数。

5.根据权利要求1所述的方法，其中，每个驾驶场景均包括一个或多个感兴趣区域(ROI)。

6.根据权利要求1所述的方法，其中，所述强化学习代理包括演员神经网络和评判家神经网络，以及其中所述演员神经网络和所述评判家神经网络是深度神经网络。

7.根据权利要求6所述的方法，其中，所述演员神经网络包括卷积神经网络。

8.一种存储有指令的非暂时性机器可读介质，所述指令在由处理器执行时致使所述处理器执行操作，所述操作包括：
生成多个驾驶场景以训练用于自动驾驶的强化学习代理；以及
重播所述驾驶场景中的每个以通过以下操作来训练所述强化学习代理，
将强化学习算法应用于所述驾驶场景的初始状态，以从多个离散的控制动作选项确定多个控制动作，以从多个离散的轨迹状态选项达到多个轨迹状态；
对于所述多个控制动作中的每个，使用所述强化学习算法确定奖励预测；
确定所述多个轨迹状态的判断分数；以及
基于所述判断分数更新所述强化学习代理，其中，所述强化学习代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。

9.根据权利要求8所述的机器可读介质，其中，基于用于自动驾驶的车辆动力学模型生成所述多个离散的控制动作选项。

10.根据权...

【专利技术属性】
技术研发人员：何润欣，周金运，罗琦，宋适宇，缪景皓，胡江滔，王禹，许稼轩，姜舒，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人