使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理制造技术

技术编号:26595993 阅读:23 留言:0更新日期:2020-12-04 21:17
在一个实施方式中,系统生成多个驱动驾驶场景来训练强化学习(RL)代理并重放每个驱动驾驶场景以通过以下操作训练RL代理:将RL算法应用于驱动驾驶场景的初始状态,以从ADV的多个离散的控制/动作选项中确定多个控制动作,以达到基于多个离散的轨迹状态选项的多个轨迹状态,对于每个控制/动作确定通过RL算法的回报预测,确定轨迹状态的判断分数,并基于判断分数更新RL代理。

【技术实现步骤摘要】
使用强化学习来加速自动驾驶车辆的轨迹规划的离线代理
本公开的实施方式总体涉及操作自动驾驶车辆。更具体地,本公开的实施方式涉及使用强化学习来加速用于自动驾驶车辆的轨迹规划的离线代理。
技术介绍
以自动驾驶模式运行(例如,无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时,车辆可使用车载传感器导航到各个位置,从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。运动规划和控制是自动驾驶中的关键操作。然而,传统的运动规划操作主要从其曲率和速度估计完成给定路径的难度,而不考虑不同类型车辆的特征差异。同样的运动规划与控制应用于所有类型的车辆,在某些情况下可能不准确和平滑。轨迹通常是基于在高清晰度(HD)地图内预先标记的车道/参考线来规划的。这种处理限制了具有完全自动驾驶的自动驾驶车辆的适用场景,例如,在开放空间场景中,其中模型必须在没有参考车道的情况下规划轨迹(例如,停车、U形转弯或三点转弯),同时避免碰撞。
技术实现思路
在本公开的一方面,提供了一种训练用于自动驾驶的强化学习代理的计算机实施的方法,所述方法包括:生成多个驾驶场景以训练用于自动驾驶的强化学习(RL)代理;以及重播所述驾驶场景中的每个以通过以下操作来训练所述RL代理,将RL算法应用于所述驾驶场景的初始状态,以从多个离散的控制动作选项确定多个控制动作,以从多个离散的轨迹状态选项达到多个轨迹状态;对于所述多个控制动作中的每个,使用所述RL算法确定奖励预测;确定所述多个轨迹状态的判断分数;以及基于所述判断分数更新所述RL代理,其中,所述RL代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。在本公开的另一方面,提供了一种存储有指令的非暂时性机器可读介质,所述指令在由处理器执行时致使所述处理器执行操作,所述操作包括:生成多个驾驶场景以训练用于自动驾驶的强化学习(RL)代理;以及重播所述驾驶场景中的每个以通过以下操作来训练所述RL代理,将RL算法应用于所述驾驶场景的初始状态,以从多个离散的控制动作选项确定多个控制动作,以从多个离散的轨迹状态选项达到多个轨迹状态;对于所述多个控制动作中的每个,使用所述RL算法确定奖励预测;确定所述多个轨迹状态的判断分数;以及基于所述判断分数更新所述RL代理,其中,所述RL代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。在本公开的又一方面,提供了一种数据处理系统,包括:处理器;以及存储器,所述存储器联接至所述处理器,以存储指令,所述指令在由所述处理器执行时致使所述处理器执行操作,所述操作包括:生成多个驾驶场景以训练用于自动驾驶的强化学习(RL)代理;以及重播所述驾驶场景中的每个以通过以下操作来训练所述RL代理,将RL算法应用于所述驾驶场景的初始状态,以从多个离散的控制动作选项确定多个控制动作,以从多个离散的轨迹状态选项达到多个轨迹状态;对于所述多个控制动作中的每个,使用所述RL算法确定奖励预测;确定所述多个轨迹状态的判断分数;以及基于所述判断分数更新所述RL代理,其中,所述RL代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。附图说明本公开的实施方式在附图的各图中以举例而非限制的方式示出,附图中的相同参考标记指示相似元件。图1是示出根据一个实施方式的网络化系统的框图。图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。图3A至图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。图4是示出根据一个实施方式的开放空间规划模块的示例的框图。图5是示出根据一个实施方式的开放空间规划模块的工作流程的示例的流程图。图6是示出根据一个实施方式的示例性方法的流程图。图7是示出根据另一实施方式的开放空间规划模块的示例的框图。图8是示出根据一个实施方式使用强化学习代理的系统的示例的框图。图9是示出根据一个实施方式的示例性方法的流程图。图10A-10B是示出根据一个实施方式的用于强化学习的机器学习引擎的示例。图11是示出根据另一实施方式的离线强化学习系统的示例的框图。图12是示出根据一个实施方式的演员神经网络的示例的框图。图13是示出根据一个实施方式的示例性环境模型的框图。图14是示出根据一个实施方式的示例性方法的流程图。图15是示出根据一个实施方式的数据处理系统的框图。具体实施方式将参考以下所讨论的细节来描述本公开的各种实施方式和方面,附图将示出所述各种实施方式。下列描述和附图是本公开的说明,而不应当解释为对本公开进行限制。描述了许多特定细节以提供对本公开的各种实施方式的全面理解。然而,在某些情况下,并未描述众所周知的或常规的细节,以提供对本公开的实施方式的简洁讨论。本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。根据第一方面,为系统生成开放空间模型以规划ADV在开放空间中的轨迹。系统感知ADV周围的环境,包括一个或多个障碍物。系统基于一个或多个障碍物的约束条件和地图信息,确定开放空间模型的目标函数。系统迭代地:基于第一轨迹对目标函数执行第一二次规划(QP)优化,同时固定目标函数的第一组变量;以及基于第一QP优化的结果对目标函数执行第二QP优化,同时固定目标函数的第二组变量。系统基于第一QP优化和第二QP优化的结果生成第二轨迹,以根据第二轨迹自主地自动地控制ADV。根据第二方面,系统使用演员评判家强化学习(RL)模型来生成开放空间中的ADV的轨迹。系统感知ADV周围的环境,包括一个或多个障碍物。系统基于感知的环境将RL算法应用于规划轨迹的初始状态,以基于ADV的地图和车辆控制信息确定ADV达到多个轨迹状态的多个控制。系统根据目标目的地状态通过RL算法为每个控制确定奖励预测。系统通过最大化奖励预测来从轨迹状态生成第一轨迹,以根据第一轨迹来自动地控制ADV。根据第三方面,系统生成多个驾驶场景来训练RL代理并重放驾驶场景中的每个以通过以下操作训练RL代理:将RL算法应用于驾驶场景的初始状态,以从ADV的多个离散的控制/动作选项中确定多个控制动作,以达到基于多个离散的轨迹状态选项的多个轨迹状态,对于每个控制/动作确定通过RL算法的奖励预测,确定轨迹状态的判断分数,并基于判断分数更新RL代理。图1是示出根据本公开的一个实施方式的自动驾驶车辆网络配置的框图。参考图1,网络配置100包括可通过网络102通信地联接到一个或多个服务器103至104的自动驾驶车辆101。尽管示出一个自动驾驶车辆,但多个自动驾驶车辆可通过网络102联接到彼此和/或联本文档来自技高网...

【技术保护点】
1.一种训练用于自动驾驶的强化学习代理的计算机实施的方法,所述方法包括:/n生成多个驾驶场景以训练用于自动驾驶的强化学习代理;以及/n重播所述驾驶场景中的每个以通过以下操作来训练所述强化学习代理,/n将强化学习算法应用于所述驾驶场景的初始状态,以从多个离散的控制动作选项确定多个控制动作,以从多个离散的轨迹状态选项达到多个轨迹状态;/n对于所述多个控制动作中的每个,使用所述强化学习算法确定奖励预测;/n确定所述多个轨迹状态的判断分数;以及/n基于所述判断分数更新所述强化学习代理,其中,所述强化学习代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。/n

【技术特征摘要】
20190515 US 16/413,3391.一种训练用于自动驾驶的强化学习代理的计算机实施的方法,所述方法包括:
生成多个驾驶场景以训练用于自动驾驶的强化学习代理;以及
重播所述驾驶场景中的每个以通过以下操作来训练所述强化学习代理,
将强化学习算法应用于所述驾驶场景的初始状态,以从多个离散的控制动作选项确定多个控制动作,以从多个离散的轨迹状态选项达到多个轨迹状态;
对于所述多个控制动作中的每个,使用所述强化学习算法确定奖励预测;
确定所述多个轨迹状态的判断分数;以及
基于所述判断分数更新所述强化学习代理,其中,所述强化学习代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。


2.根据权利要求1所述的方法,其中,基于用于自动驾驶的车辆动力学模型生成所述多个离散的控制动作选项。


3.根据权利要求1所述的方法,其中,通过根据最终目的地轨迹状态对每个所述驾驶场景的感兴趣区域进行离散化而生成所述多个离散的轨迹状态选项。


4.根据权利要求1所述的方法,其中,所述判断分数包括表示第一轨迹是否结束于计划目的地状态、所述第一轨迹是否平滑、以及所述第一轨迹是否避开环境模型的一个或多个障碍物的分数。


5.根据权利要求1所述的方法,其中,每个驾驶场景均包括一个或多个感兴趣区域(ROI)。


6.根据权利要求1所述的方法,其中,所述强化学习代理包括演员神经网络和评判家神经网络,以及其中所述演员神经网络和所述评判家神经网络是深度神经网络。


7.根据权利要求6所述的方法,其中,所述演员神经网络包括卷积神经网络。


8.一种存储有指令的非暂时性机器可读介质,所述指令在由处理器执行时致使所述处理器执行操作,所述操作包括:
生成多个驾驶场景以训练用于自动驾驶的强化学习代理;以及
重播所述驾驶场景中的每个以通过以下操作来训练所述强化学习代理,
将强化学习算法应用于所述驾驶场景的初始状态,以从多个离散的控制动作选项确定多个控制动作,以从多个离散的轨迹状态选项达到多个轨迹状态;
对于所述多个控制动作中的每个,使用所述强化学习算法确定奖励预测;
确定所述多个轨迹状态的判断分数;以及
基于所述判断分数更新所述强化学习代理,其中,所述强化学习代理用于生成随后自动驾驶自动驾驶车辆(ADV)的轨迹。


9.根据权利要求8所述的机器可读介质,其中,基于用于自动驾驶的车辆动力学模型生成所述多个离散的控制动作选项。


10.根据权...

【专利技术属性】
技术研发人员:何润欣周金运罗琦宋适宇缪景皓胡江滔王禹许稼轩姜舒
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1