【技术实现步骤摘要】
规划用于自动驾驶车辆的开放空间轨迹的在线代理
本公开的实施方式总体涉及操作自动驾驶车辆。更具体地,本公开的实施方式涉及使用强化学习来规划用于自动驾驶车辆(ADV)的开放空间轨迹的在线代理。
技术介绍
以自动驾驶模式运行(例如,无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时,车辆可使用车载传感器导航到各个位置,从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。运动规划和控制是自动驾驶中的关键操作。然而,传统的运动规划操作主要从其曲率和速度估计完成给定路径的难度,而不考虑不同类型车辆的特征差异。同样的运动规划与控制应用于所有类型的车辆,在某些情况下可能不准确和平滑。轨迹通常是基于在高清晰度(HD)地图内预先标记的车道/参考线来规划的。这种处理限制了具有完全自动驾驶的自动驾驶车辆的适用场景,例如,在开放空间场景中,其中模型必须在没有参考车道的情况下规划轨迹(例如,停车、U形转弯或三点转弯),同时避免碰撞。
技术实现思路
在本公开的一方面,提供了一种用于操作自动驾驶车辆的计算机实施的方法,所述方法包括:感知自动驾驶车辆(ADV)周围的环境;基于所感知的环境将强化学习(RL)算法应用于初始规划轨迹的初始状态,以基于所述ADV的地图和车辆控制信息来确定所述ADV达到多个轨迹状态的多个控制;根据目标目的地状态,通过RL算法为所述多个控制中的每个确定奖励预测;以及通过最大化所述奖励预测从所述轨迹状态生成 ...
【技术保护点】
1.一种用于操作自动驾驶车辆的计算机实施的方法,所述方法包括:/n感知自动驾驶车辆周围的环境;/n基于所感知的环境将强化学习算法应用于初始规划轨迹的初始状态,以基于所述自动驾驶车辆的地图和车辆控制信息来确定所述自动驾驶车辆达到多个轨迹状态的多个控制;/n根据目标目的地状态,通过强化学习算法为所述多个控制中的每个确定奖励预测;以及/n通过最大化所述奖励预测从所述轨迹状态生成第一轨迹,以根据所述第一轨迹自动控制所述自动驾驶车辆。/n
【技术特征摘要】
20190515 US 16/413,3321.一种用于操作自动驾驶车辆的计算机实施的方法,所述方法包括:
感知自动驾驶车辆周围的环境;
基于所感知的环境将强化学习算法应用于初始规划轨迹的初始状态,以基于所述自动驾驶车辆的地图和车辆控制信息来确定所述自动驾驶车辆达到多个轨迹状态的多个控制;
根据目标目的地状态,通过强化学习算法为所述多个控制中的每个确定奖励预测;以及
通过最大化所述奖励预测从所述轨迹状态生成第一轨迹,以根据所述第一轨迹自动控制所述自动驾驶车辆。
2.根据权利要求1所述的方法,还包括将判断逻辑应用于所述第一轨迹以确定所述第一轨迹的判断分数。
3.根据权利要求2所述的方法,其中,所述判断分数包括所述第一轨迹是否结束于所述目的地状态、所述第一轨迹是否平滑、以及所述第一轨迹是否避开所感知的环境中的一个或多个障碍物的分数。
4.根据权利要求3所述的方法,还包括,如果所述判断分数低于预定阈值,则基于开放空间优化模型生成第二轨迹,以根据所述第二轨迹自动控制所述自动驾驶车辆。
5.根据权利要求4所述的方法,其中,所述开放空间优化模型用来生成所述自动驾驶车辆的轨迹,而无需跟随参考线或交通线。
6.根据权利要求4所述的方法,其中,所述开放空间优化模型包括用于所述自动驾驶车辆的车辆动力学模型。
7.根据权利要求1所述的方法,其中,所述强化学习算法由演员神经网络和评判家神经网络执行,以及其中所述演员神经网络和所述评判家神经网络是深度神经网络。
8.一种存储有指令的非暂时性机器可读介质,所述指令在由处理器执行时致使所述处理器执行操作,所述操作包括:
感知自动驾驶车辆周围的环境;
基于所感知的环境将强化学习算法应用于初始规划轨迹的初始状态,以基于所述自动驾驶车辆的地图和车辆控制信息来确定所述自动驾驶车辆达到多个轨迹状态的多个控制;
根据目标目的地状态,通过强化学习算法为所述多个控制中的每个确定奖励预测;以及
通过最大化所述奖励预测从所述轨迹状态生成第一轨迹,以根据所述第一轨迹自动控制所述自动驾驶车辆。
9.根据权利要求8所述的非暂时性机器可读介质,其中,所述操作还包括将判断逻辑应用于所述第一轨迹以确定所述第一轨迹的判断分数。
10.根据权利要求9所述的非暂时性机器可读介质,其中,所述判断分数包括所述第一轨迹是否结束于所述目的地状态、所述第一轨迹是否平滑、以及所述第一轨迹是否...
【专利技术属性】
技术研发人员:何润欣,周金运,罗琦,宋适宇,缪景皓,胡江滔,王禹,许稼轩,姜舒,
申请(专利权)人:百度美国有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。