用于调整自主驾驶车辆的运动规划器的基于学习的评论器制造技术

技术编号:37131549 阅读:12 留言:0更新日期:2023-04-06 21:29
本文描述了一种训练用于调整自主驾驶车辆的基于规则的运动规划器的基于学习的评论器的方法,一种使用具有基于学习的评论器的自主调整框架调整运动规划器的方法。方法包括接收包括人类驾驶轨迹和从人类驾驶轨迹得出的随机轨迹的训练数据;使用训练数据训练基于学习的评论器;通过比较第一组轨迹和第二组轨迹识别一组不一致的轨迹;以及在神经网络训练平台处,基于一组不一致的轨迹改进基于学习的评论器。论器。论器。

【技术实现步骤摘要】
用于调整自主驾驶车辆的运动规划器的基于学习的评论器


[0001]本公开的实施例一般涉及操作自主车辆。更特别地,本公开的实施例涉及自主驾驶车辆的运动规划器的参数调整。

技术介绍

[0002]当以自主模式驾驶时,自主驾驶车辆(ADV)可以减轻乘坐者,尤其是驾驶员的一些驾驶相关责任。当以自主模式操作时,车辆可以使用车载传感器导航到各种位置,从而允许车辆以最小的人机交互或者在没有任何乘客的一些情况下行驶。
[0003]运动规划,也称为路径规划,是大规模、注重安全、真实世界自主驾驶车辆的关键。运动规划器可以是基于规则的或基于学习的。每种类型的运动规划器有其优点和缺点。例如,基于规则的运动规划器将运动规划制定为受约束的优化问题。尽管基于规则的运动规划器是可靠且可解释的,但其性能在很大程度上取决于优化问题与参数的关系如何。这些参数是为各种目的而设计的,诸如建模不同的场景、平衡每个单个目标的权重,因此需要手动微调以获得最优性能。另一方面,基于学习的规划器从大量的人类示范中学习,以创建类似人类的驾驶规划,从而避免繁琐的规则和约束设计过程。然而,缺乏可解释性阻碍了其在自主驾驶等注重安全的任务中的应用。

技术实现思路

[0004]第一方面,提供一种用于训练用于调整自主驾驶车辆(ADV)的运动规划器的基于学习的评论器的计算机实现的方法,所述方法包括:
[0005]通过自主驾驶模拟平台接收包括人类驾驶轨迹和从人类驾驶轨迹得出的随机轨迹的训练数据;
[0006]通过自主驾驶模拟平台使用训练数据训练基于学习的评论器;
[0007]通过在自主驾驶模拟平台处运行的基于学习的评论器,通过比较第一组轨迹和第二组轨迹来识别一组不一致的轨迹,其中第一组轨迹由具有第一组参数的运动规划器生成,并且第二组轨迹由具有第二组参数的运动规划器生成;以及
[0008]通过神经网络训练平台,基于一组不一致的轨迹来改进基于学习的评论器。
[0009]第二方面,提供一种其中存储有指令的非暂时性机器可读介质,当所述指令由处理器执行时,使所述处理器执行如第一方面所述的方法的操作。
[0010]第三方面,提供一种调整自主驾驶车辆(ADV)的运动规划器的方法,包括:
[0011]从基于学习的评论器建立目标函数;
[0012]应用优化操作来优化目标函数,以确定用于一个或多个驾驶环境的自主驾驶车辆(ADV)的动态模型的运动规划器的一组最优参数;
[0013]使用具有用于一个或多个驾驶环境的一组最优参数的运动规划器生成第一组轨迹;
[0014]使用具有用于一个或多个驾驶环境的一组现有参数的基于学习的评论器生成第
二组轨迹;
[0015]生成指示第一组轨迹和第二组轨迹之间的差异的分数。
[0016]通过本公开的实施例,自主调整框架可以消除繁琐的参数调整中的人力,减少调整时间,同时保留基于规则的运动规划器的物理和安全约束。此外,当基于学习的评论器使用不同的人类驾驶数据集进行训练时,自主调整框架可以创建个性化的运动规划器。
附图说明
[0017]本公开的实施例通过示例的方式示出并且不限于附图中的图,在附图中相同的附图标记表示相似的元件。
[0018]图1示出了根据一个实施例的运动规划器调整框架100。
[0019]图2A、2B和2C示出了根据一个实施例的如何从示范轨迹生成附加轨迹。
[0020]图3示出了根据一个实施例的基于学习的评论器的输入特征。
[0021]图4A、4B和4C示出了根据一个实施例的用于训练基于学习的评论器的损失函数。
[0022]图5A和5B示出了根据实施例的基于学习的评论器的架构设计。
[0023]图6示出了用于本专利技术的一些实施例的自主驾驶模拟平台的示例。
[0024]图7是示出根据一个实施例的训练用于调整ADV的运动规划器的基于学习的评论器的过程的流程图。
[0025]图8是示出根据一个实施例的调整ADV的运动规划器的过程的流程图。
[0026]图9是示出根据一个实施例的ADV的框图。
[0027]图10是示出根据一个实施例的ADV的控制系统的框图。
[0028]图11是示出根据一个实施例的ADV的自主驾驶系统的示例的框图。
具体实施方式
[0029]将参考以下讨论的细节描述本公开的各个实施例和方面,并且附图将示出各个实施例。以下描述和附图是本公开的说明并且不应被解释为限制本公开。描述了许多具体细节以提供对本公开的各个实施例的全面理解。然而,在某些情况下,为了提供对本公开的实施例的简要讨论,没有描述公知或常规的细节。
[0030]说明书中对“一个实施例”或“实施例”的引用意味着结合该实施例描述的特定特征、结构或特性可包括在本公开的至少一个实施例中。在说明书中的各个地方出现的短语“在一个实施例中”不一定都指同一实施例。
[0031]如上所述,基于规则的运动规划器具有许多优点,但需要手动调整,这通常是低效的,并且高度依赖于经验知识。本专利技术中的运动规划器可以是ADV的速度规划器或规划模块。在本公开中,一些实施例使用轨迹来示出,并且一些实施例使用速度规划来示出。使用轨迹示出的实施例可以使用速度规划类似地示出,反之亦然。
[0032]根据各种实施例,本文描述的是用于调整ADV的运动规划器的自主调整框架,以及训练基于学习的评论器的方法,其是自主调整框架的关键组件。
[0033]在实施例中,一种训练基于学习的评论器的方法包括在自主驾驶模拟平台处接收包括人类驾驶轨迹和从人类驾驶轨迹得出的随机轨迹的训练数据;通过自主驾驶模拟平台使用训练数据训练基于学习的评论器。方法进一步包括通过在自主驾驶模拟平台处运行的
基于学习的评论器,通过比较第一组轨迹和第二组轨迹来识别一组不一致的轨迹。第一组轨迹由具有第一组参数的运动规划器生成,并且第二组轨迹由具有第二组参数的运动规划器生成。方法进一步包括通过自主驾驶模拟平台基于一组不一致的轨迹对基于学习的评论器进行改进。
[0034]在实施例中,自主驾驶模拟平台包括用于训练神经网络、模拟ADV以及调整ADV的每个模块的参数的硬件组件和服务。运动规划器是ADV的模块之一,在自主驾驶模拟平台中以动态模型表示。运动规划器可以是规划模块、速度规划模块或规划模块与支出规划模块的组合模块。
[0035]在一个实施例中,运动规划器的第一组参数由基于学习的评论器针对一个或多个驾驶环境识别,并且第二组参数是用于运动规划器的一组现有参数。每个随机轨迹从人类驾驶轨迹中的一个得出。从相应的人类驾驶轨迹得出随机轨迹包括确定相应的人类驾驶轨迹的起点和终点,改变相应的人类驾驶轨迹的一个或多个参数中的一个,以及用改变后的参数替换人类驾驶轨迹的相应参数以得到随机轨迹。可以通过对参数赋予从预定范围中选择的不同值来改变参数。
[0036]在一个实施例中,基于学习的评论器包括编码器和相似性网络,并且编码器和相似性网络中的每一个是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练用于调整自主驾驶车辆(ADV)的运动规划器的基于学习的评论器的计算机实现的方法,所述方法包括:通过自主驾驶模拟平台接收包括人类驾驶轨迹和从人类驾驶轨迹得出的随机轨迹的训练数据;通过自主驾驶模拟平台使用训练数据训练基于学习的评论器;通过在自主驾驶模拟平台处运行的基于学习的评论器,通过比较第一组轨迹和第二组轨迹来识别一组不一致的轨迹,其中第一组轨迹由具有第一组参数的运动规划器生成,并且第二组轨迹由具有第二组参数的运动规划器生成;以及通过神经网络训练平台,基于一组不一致的轨迹来改进基于学习的评论器。2.根据权利要求1所述的方法,其中,运动规划器的第一组参数由基于学习的评论器针对一个或多个驾驶环境识别,并且第二组参数是运动规划器的一组现有参数。3.根据权利要求1所述的方法,其中,随机轨迹中的每一个是从人类驾驶轨迹中的一个得出的,并且其中从相应的人类驾驶轨迹得出随机轨迹包括:确定相应的人类驾驶轨迹的起点和终点;改变相应的人类驾驶轨迹的一个或多个参数中的一个;以及用改变后的参数替换人类驾驶轨迹的相应参数以得到随机轨迹。4.根据权利要求3所述的方法,其中,通过对参数赋予从预定范围中选择的不同值来改变参数。5.根据权利要求1所述的方法,其中,基于学习的评论器包括编码器和相似性网络,其中编码器和相似性网络中的每一个是神经网络模型。6.根据权利要求5所述的方法,其中,编码器和相似性网络中的每一个是递归神经网络(RNN)或多层感知器(MLP)网络中的一个。7.根据权利要求6所述的方法,其中,编码器是RNN网络,其中每个RNN单元是门控循环单元(GRU)。8.根据权利要求5...

【专利技术属性】
技术研发人员:姜舒熊子康林玮曼曹昱罗琦胡江滔缪景皓
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1