使用逆向强化学习的开放空间路径规划制造技术

技术编号：30146452 阅读：34 留言：0更新日期：2021-09-25 14:51

在一个实施方式中，方法确定从开放空间内的自动驾驶车辆(ADV)的第一位置到第二位置的路线，第一位置是ADV的当前位置。方法基于路线确定目标函数，目标函数具有用于操控ADV从第一位置到第二位置的成本集。方法确定开放空间的环境条件，并使用环境条件来确定权重集，每个权重将应用于目标函数的对应成本。方法基于一个或多个约束优化目标函数，使得在满足一个或多个约束时，目标函数的输出达到最小，并用优化的目标函数生成路径轨迹，以根据路径轨迹自动控制ADV。自动控制ADV。自动控制ADV。

全部详细技术资料下载

【技术实现步骤摘要】
使用逆向强化学习的开放空间路径规划

[0001]本公开的实施方式总体涉及操作自动驾驶车辆。更具体地，本公开的实施方式涉及使用逆向强化学习的开放空间路径规划。

技术介绍

[0002]以自动驾驶模式运行(例如，无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时，车辆可使用车载传感器导航到各个位置，从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。
[0003]运动规划和控制是自动驾驶中的关键操作。此外，轨迹规划对于操作自动驾驶车辆(ADV)是至关重要的。根据各种约束可以利用开放空间规划器以优化轨迹。根据优化的轨迹，ADV可以生成命令以沿路径控制ADV。然而，在某些情况下，规划器生成的轨迹通常缺乏自动驾驶所需的足够的平滑度。结果，由ADV执行的某些操控可能是突然的，并且是乘客不太期望的。

技术实现思路

[0004]根据本公开的一方面，提供了由自动驾驶车辆执行的计算机实施的方法，所述方法包括：
[0005]确定从开放空间内的所述自动驾驶车辆的...

【技术保护点】

【技术特征摘要】
1.由自动驾驶车辆执行的计算机实施的方法，所述方法包括：确定从开放空间内的所述自动驾驶车辆的第一位置到第二位置的路线，所述第一位置是所述自动驾驶车辆的当前位置；基于所述路线确定目标函数，所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集；基于所述开放空间的一个或多个环境条件确定权重集，每个权重将应用于所述目标函数的对应成本；根据一个或多个约束优化所述目标函数，使得在满足所述一个或多个约束时，所述目标函数的输出达到最小；以及用所优化的目标函数生成路径轨迹，以根据所述路径轨迹自动控制所述自动驾驶车辆。2.根据权利要求1所述的方法，其中，确定所述权重集包括：在环境条件与权重相关联的表中执行表查找，其中，所述表是权重的逆向强化学习模型，所述权重表示专业驾驶员针对环境条件的行为。3.根据权利要求1所述的方法，还包括：确定所述开放空间的所述环境条件，包括：分析由所述自动驾驶车辆的一个或多个摄像机捕获的图像，以识别所述环境条件。4.根据权利要求3所述的方法，其中，所述环境条件包括在所述图像内捕获的一个或多个对象相对于所述自动驾驶车辆的所述当前位置的位置。5.根据权利要求3所述的方法，其中，所述环境条件包括在所述图像内捕获的所述开放空间的道路特征。6.根据权利要求1所述的方法，还包括：控制所述自动驾驶车辆沿所生成的路径轨迹从所述第一位置操控到所述第二位置。7.根据权利要求6所述的方法，其中，所述路线是第一路线，所述目标函数是第一目标函数，所述开放空间是第一开放空间，所述权重集是第一权重集，并且所述成本集是第一成本集，其中，所述方法还包括：确定从第二开放空间内的所述自动驾驶车辆的所述第二位置到第三位置的第二路线，所述第二位置是所述自动驾驶车辆的当前位置；基于所述第二路线确定第二目标函数，所述第二目标函数包括用于从所述第二位置操控到所述第三位置的第二成本集；确定所述第二开放空间的环境条件；以及使用所述第二开放空间的所述环境条件以确定第二权重集，每个权重将应用于所述第二目标函数的对应成本。8.根据权利要求7所述的方法，其中，所述第二权重集中的至少一个所述权重与所述第一权重集中的对应权重不同。9.具有存储在其中的指令的非暂存性机器可读介质，所述指令在由处理器执行时使所述处理器执行操作，所述操作包括：确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线，所述第一位置是所述自动驾驶车辆的当前位置；基于所述路线确定目标函数，所述目标函数具有用于操控所述自动驾驶车辆从所述第
一位置到所述第二位置的成本集；基于所述开放空间的一个或多个环境条件确定权重集，每个权重将应用于所述目标函数的对应成本；根据一个或多个约束优化所述目标函数，使得在满足所述一个或多个约束时，所述目标函数的输出达到最小；以及用所优化的目标函数生成路径轨迹，以根据所述路径轨迹自动控制所述自动驾驶车辆。10.根据权利要求9所述的机器可读介质，其中，确定所述权重集包括：在环境条件与权重相关联的表中执行表查找，其中，所述表是权重的逆向强化学习模型，所述权重表示专业驾驶员针对环境条件的行为。11.根据权利要求9所述的机器可读介质，其中，所述操作还包括：确定所述开放空间的所述...

【专利技术属性】
技术研发人员：周金运，罗琦，姜舒，陶佳鸣，王禹，许稼轩，许珂诚，缪景皓，胡江滔，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人