使用逆向强化学习的开放空间路径规划制造技术

技术编号:30146452 阅读:27 留言:0更新日期:2021-09-25 14:51
在一个实施方式中,方法确定从开放空间内的自动驾驶车辆(ADV)的第一位置到第二位置的路线,第一位置是ADV的当前位置。方法基于路线确定目标函数,目标函数具有用于操控ADV从第一位置到第二位置的成本集。方法确定开放空间的环境条件,并使用环境条件来确定权重集,每个权重将应用于目标函数的对应成本。方法基于一个或多个约束优化目标函数,使得在满足一个或多个约束时,目标函数的输出达到最小,并用优化的目标函数生成路径轨迹,以根据路径轨迹自动控制ADV。自动控制ADV。自动控制ADV。

【技术实现步骤摘要】
使用逆向强化学习的开放空间路径规划


[0001]本公开的实施方式总体涉及操作自动驾驶车辆。更具体地,本公开的实施方式涉及使用逆向强化学习的开放空间路径规划。

技术介绍

[0002]以自动驾驶模式运行(例如,无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时,车辆可使用车载传感器导航到各个位置,从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。
[0003]运动规划和控制是自动驾驶中的关键操作。此外,轨迹规划对于操作自动驾驶车辆(ADV)是至关重要的。根据各种约束可以利用开放空间规划器以优化轨迹。根据优化的轨迹,ADV可以生成命令以沿路径控制ADV。然而,在某些情况下,规划器生成的轨迹通常缺乏自动驾驶所需的足够的平滑度。结果,由ADV执行的某些操控可能是突然的,并且是乘客不太期望的。

技术实现思路

[0004]根据本公开的一方面,提供了由自动驾驶车辆执行的计算机实施的方法,所述方法包括:
[0005]确定从开放空间内的所述自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
[0006]基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
[0007]基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
[0008]根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及
[0009]用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。
[0010]根据本公开的另一方面,提供了具有存储在其中的指令的非暂存性机器可读介质,所述指令在由处理器执行时使所述处理器执行操作,所述操作包括:
[0011]确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
[0012]基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
[0013]基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
[0014]根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所
述目标函数的输出达到最小;以及
[0015]用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。
[0016]根据本公开的又一方面,提供了数据处理系统,包括:
[0017]处理器;以及
[0018]存储器,联接到所述处理器以存储指令,所述指令在由所述处理器执行时使所述处理器执行操作,所述操作包括:
[0019]确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;
[0020]基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;
[0021]基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;
[0022]根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及
[0023]用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。
附图说明
[0024]在附图的各图中以举例的方式而非限制的方式示出了各方面,附图中相同附图标记指示相似元件。应注意,对本公开的“一个(an)”或“一个(one)”方面的附图标记不一定是相同的方面,并且它们意指至少一个。而且,为了简洁和减少附图的总数,可以使用给定附图来示出一个以上方面的特征,并且对于给定方面并非图中的所有元件都是必需的。
[0025]图1是示出根据一个实施方式的网络化系统的框图。
[0026]图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。
[0027]图3A至图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。
[0028]图4示出根据一个实施方式的用于自动驾驶的系统架构的框图。
[0029]图5是根据一个实施方式的用于基于环境条件动态地确定一个或多个用于开放空间路径规划的权重的过程的流程图。
[0030]图6A和6B是示出根据另一实施方式的静态权重与基于环境条件动态确定的权重之间的差异的阶段。
具体实施方式
[0031]现在参照附图阐释本公开的几个实施方式。每当给定方面中所描述的部件的形状、相对位置和其它方面未明确限定时,此处本公开的范围并非仅限于所示出的部分,而仅是为了说明的目的。而且,尽管阐述了许多细节,但是应当理解的是,有些方面没有这些细节也可以实施。在其它情况下,未详细示出公知的电路、结构和技术,以免混淆对本描述的理解。此外,除非含义明显相反,否则本文列出的所有范围均视为包含每个范围的端点。
[0032]本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。
[0033]本公开解决了通过基于环境条件来适配路径规划系统,以控制ADV如人工操作员(例如,当在驾驶员座位上时)手动控制那样驾驶,来改善路径规划的质量的问题。如本文所述,路径规划系统可以创建具有一个或多个成本(或成本函数)的目标函数,用于沿路径或路线自动地控制ADV。权重可以关联并应用于每个成本(例如,乘法),以修改每个成本对总体计算成本的影响。在常规的规划系统中,这些权重是静态的(例如,不改变预定值)。
[0034]然而,当前公开中提出的解决方案提供了开放空间路径规划方法,方法基于驾驶条件使用奖励函数来调整(或修改)至少一些权重。具体地,奖励函数是根据逆向强化学习(IRL)框架,通过观察(专业)驾驶员在不同驾驶目标期间的行为而创建的。当创建目标函数时,规划系统确定环境条件(例如,经由ADV的摄像机捕获的图像),并将条件应用于奖励函数以生成权重(或不同的权重值)。因此,生成的权重(当应用于目标函数时)反映ADV的“类人”控制,从而为乘客提供更愉悦的驾驶体验。
[0035]根据一些实施方式,公开了由ADV执行的计算机实施的方法。方法包括确定从开放空间内的ADV的第一位置到第二位置的路线,第一位置是ADV的当前位置。方法基于路线确定目标函数,目标函数具有用于操控ADV从第一位置到第二位置的成本集。方法确定开放(或驾驶)空间的环境条件(或参数),并使用这些参数确定权重集,每个权重将应用于目标函数的对应成本。方法基于一个或多个约束优化目标函数,使得在满足一个或多个约束的情况下,目标函数的输出达到最小。方法利用优化的目标函数生成路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.由自动驾驶车辆执行的计算机实施的方法,所述方法包括:确定从开放空间内的所述自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集;基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。2.根据权利要求1所述的方法,其中,确定所述权重集包括:在环境条件与权重相关联的表中执行表查找,其中,所述表是权重的逆向强化学习模型,所述权重表示专业驾驶员针对环境条件的行为。3.根据权利要求1所述的方法,还包括:确定所述开放空间的所述环境条件,包括:分析由所述自动驾驶车辆的一个或多个摄像机捕获的图像,以识别所述环境条件。4.根据权利要求3所述的方法,其中,所述环境条件包括在所述图像内捕获的一个或多个对象相对于所述自动驾驶车辆的所述当前位置的位置。5.根据权利要求3所述的方法,其中,所述环境条件包括在所述图像内捕获的所述开放空间的道路特征。6.根据权利要求1所述的方法,还包括:控制所述自动驾驶车辆沿所生成的路径轨迹从所述第一位置操控到所述第二位置。7.根据权利要求6所述的方法,其中,所述路线是第一路线,所述目标函数是第一目标函数,所述开放空间是第一开放空间,所述权重集是第一权重集,并且所述成本集是第一成本集,其中,所述方法还包括:确定从第二开放空间内的所述自动驾驶车辆的所述第二位置到第三位置的第二路线,所述第二位置是所述自动驾驶车辆的当前位置;基于所述第二路线确定第二目标函数,所述第二目标函数包括用于从所述第二位置操控到所述第三位置的第二成本集;确定所述第二开放空间的环境条件;以及使用所述第二开放空间的所述环境条件以确定第二权重集,每个权重将应用于所述第二目标函数的对应成本。8.根据权利要求7所述的方法,其中,所述第二权重集中的至少一个所述权重与所述第一权重集中的对应权重不同。9.具有存储在其中的指令的非暂存性机器可读介质,所述指令在由处理器执行时使所述处理器执行操作,所述操作包括:确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线,所述第一位置是所述自动驾驶车辆的当前位置;基于所述路线确定目标函数,所述目标函数具有用于操控所述自动驾驶车辆从所述第
一位置到所述第二位置的成本集;基于所述开放空间的一个或多个环境条件确定权重集,每个权重将应用于所述目标函数的对应成本;根据一个或多个约束优化所述目标函数,使得在满足所述一个或多个约束时,所述目标函数的输出达到最小;以及用所优化的目标函数生成路径轨迹,以根据所述路径轨迹自动控制所述自动驾驶车辆。10.根据权利要求9所述的机器可读介质,其中,确定所述权重集包括:在环境条件与权重相关联的表中执行表查找,其中,所述表是权重的逆向强化学习模型,所述权重表示专业驾驶员针对环境条件的行为。11.根据权利要求9所述的机器可读介质,其中,所述操作还包括:确定所述开放空间的所述...

【专利技术属性】
技术研发人员:周金运罗琦姜舒陶佳鸣王禹许稼轩许珂诚缪景皓胡江滔
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1