预测运动规划系统及方法技术方案

技术编号:37851912 阅读:13 留言:0更新日期:2023-06-14 22:42
描述了用于训练自动驾驶汽车(100)的运动规划器(330)的方法和系统。所述运动规划器(330)的轨迹评估器(334)代理接收状态数据,所述状态数据定义了所述自动驾驶汽车(100)的当前状态和在当前时间跳变的环境(802)。根据所述当前状态,选择轨迹(804)。根据所述选定轨迹在所述当前状态下的性能,计算奖励(806)。接收针对所述自动驾驶汽车(100)的下一个状态和在下一个时间跳变的环境的状态数据(808)。根据所述当前状态、选定轨迹、计算奖励和下一个状态更新所述轨迹评估器(334)代理的参数(810)。所述轨迹评估器(334)代理的所述参数被更新以为所述选定轨迹分配反映所述选定轨迹在未来状态中的所述计算奖励和预期性能的评估值。状态中的所述计算奖励和预期性能的评估值。状态中的所述计算奖励和预期性能的评估值。

【技术实现步骤摘要】
【国外来华专利技术】预测运动规划系统及方法
[0001]相关申请案的交叉引用
[0002]本专利申请要求2020年7月28日提交的标题为“预测运动规划系统和方法(PREDICTIVE MOTION PLANNING SYSTEM AND METHOD)”的美国专利申请序列号16/940,807的优先权权益,该专利申请通过引用并入本文,就像完整复制一样。


[0003]本公开涉及用于自动驾驶汽车的路径规划的系统和方法,包括用于基于轨迹生成、评估和选择进行运动规划的系统和方法。

技术介绍

[0004]自动驾驶汽车可以使用不同的传感器来感知其周围环境和车辆自身的操作参数。自动驾驶汽车通常包括基于终点目标和感测数据规划未来车辆动作的规划系统,并且车辆控制系统根据规划系统的输出生成控制命令。因此,规划系统在决策、规划和导航中发挥着至关重要的作用。
[0005]规划系统可以分解为以下分层规划器(也可以称为规划单元、规划子系统、规划模块等):任务规划器、行为规划器和运动规划器。运动规划器接收来自行为规划器的规划行为以及关于感知环境的信息作为输入,以输出自动驾驶汽车的轨迹。在本公开中,轨迹是自动驾驶汽车在多个时间跳变上应沿着的位置坐标和方向的序列。可以在轨迹中定义车辆速度和/或车辆加速度等其它参数。
[0006]运动规划的一些方法包括轨迹生成器、轨迹评估器和轨迹选择器。轨迹生成器通常使用一些先验知识(例如,车辆动力学和运动学)来仅生成合理的轨迹并减少搜索空间。轨迹评估器通常评估生成的轨迹(例如,使用一些定量度量),以对轨迹进行比较和排序。轨迹选择器通常基于对生成轨迹的评估选择一个所需轨迹。
[0007]现有的基于规则的运动规划技术通常需要根据显式定义的成本函数进行优化。这种基于规则的方法通常难以维护,也无法在复杂的动态场景中很好地扩展。此外,显式定义的成本函数通常不够通用,难以调整以考虑复杂的动态相互作用。
[0008]其它运动规划技术使用基于机器学习的方法,这些方法从人类驾驶模式中学习。例如,Zeng等人(“端到端可解释神经运动规划器(End

to

End Interpretable Neural Motion Planner)”,IEEE计算机视觉和模式识别会议(CVPR),2019年)描述了一种端到端监督学习途径,该方法学习将更好的评估分配给与人类驾驶数据更相似的轨迹,并将更差的评估分配给与人类驾驶数据更为不同的轨迹。在另一个示例中,Bansal等人(“ChauffeurNet:通过模仿最好的和合成最差的来学习驾驶(ChauffeurNet:Learning to Drive by Imitating the Best and Synthesizing the Worst)”,机器人学:科学与系统,2019年)使用神经网络根据人类驾驶数据直接从其历史中预测未来轨迹,然后将此预测轨迹用作运动规划器的输出。
[0009]这些方法依靠人类专家进行训练,通常仅限于专家的表现和经验。这些方法可能
无法充分探索状态

行动空间中对安全和性能可能不那么重要的部分。因此,提供一种不依赖于专家表现的基于机器学习的运动规划方法是有益的。

技术实现思路

[0010]在各种示例中,本公开描述了使用基于机器学习的方法来进行自动驾驶汽车中的运动规划的方法和系统。描述了基于机器学习的方法的不同示例,包括训练基于RL代理的轨迹评估器的方法,该方法使轨迹评估器能够从其先前的经验中学习,而不限于人类生成的训练数据。
[0011]在各种示例中,本公开描述了运动规划器,该运动规划器接收当前状态(当前状态可以包括关于感知环境的信息以及规划行为的信息)和可选地在未来时间跳变中的预测作为输入,并基于特定度量的优化选择要沿着的规划轨迹。通常,可以选择规划轨迹,以实现更安全、更快(但在限速内)的驾驶体验。
[0012]在各种示例中,本公开描述了用于训练轨迹评估器以将评估值分配给候选轨迹的RL方法。轨迹评估器可以使用包括显式定义的轨迹(例如,由显式函数或公式在数学上定义)的训练数据来训练,或者可以使用包括轨迹参数的训练数据来训练。使用显式定义的轨迹进行训练可以在轨迹的生成方式上实现更多的灵活性。使用轨迹参数的训练可以实现更快的训练和更彻底的探索较小轨迹空间。
[0013]在一些示例中,轨迹评估器可以生成以统计度量为特征的概率评估值。这使用分布强化学习通过训练来实现。
[0014]在一些示例中,本公开描述了一种用于训练自动驾驶汽车的运动规划器的系统。所述系统包括处理单元,所述处理单元用于执行指令以使所述系统:接收第一组状态数据,作为对所述运动规划器的轨迹评估器代理的输入,所述第一组状态数据定义了所述自动驾驶汽车的当前状态和在当前时间跳变的环境;基于所述当前状态选择选定轨迹;确定所述选定轨迹的计算奖励,所述计算奖励是基于所述选定轨迹在所述当前状态下的性能计算的;接收第二组状态数据,所述第二组状态数据定义了所述自动驾驶汽车的下一个状态和在下一个时间跳变的环境;基于所述当前状态、选定轨迹、计算奖励和下一个状态更新所述轨迹评估器代理的参数,所述轨迹评估器代理的所述参数被更新以为所述选定轨迹分配反映所述选定轨迹在未来状态中的所述计算奖励和预期性能的评估值。
[0015]在一些示例中,本公开描述了一种用于训练自动驾驶汽车的运动规划器的方法。所述方法包括:接收第一组状态数据,作为对所述运动规划器的轨迹评估器代理的输入,所述第一组状态数据定义了所述自动驾驶汽车的当前状态和在当前时间跳变的环境;基于所述当前状态选择选定轨迹;确定所述选定轨迹的计算奖励,所述计算奖励是基于所述选定轨迹在所述当前状态下的性能计算的;接收第二组状态数据,所述第二组状态数据定义了所述自动驾驶汽车的下一个状态和在下一个时间跳变的环境;基于所述当前状态、选定轨迹、计算奖励和下一个状态更新所述轨迹评估器代理的参数,所述轨迹评估器代理的所述参数被更新以为所述选定轨迹分配反映所述选定轨迹在未来状态中的所述计算奖励和预期性能的评估值。
[0016]在一些示例中,本公开描述了一种计算机可读介质,存储用于由用于训练自动驾驶汽车的运动规划器的系统的处理单元执行的指令,所述指令在执行时使所述系统:接收
第一组状态数据,作为对所述运动规划器的轨迹评估器代理的输入,所述第一组状态数据定义了所述自动驾驶汽车的当前状态和在当前时间跳变的环境;基于所述当前状态选择选定轨迹;确定所述选定轨迹的计算奖励,所述计算奖励是基于所述选定轨迹在所述当前状态下的性能计算的;接收第二组状态数据,所述第二组状态数据定义了所述自动驾驶汽车的下一个状态和在下一个时间跳变的环境;基于所述当前状态、选定轨迹、计算奖励和下一个状态更新所述轨迹评估器代理的参数,所述轨迹评估器代理的所述参数被更新以为所述选定轨迹分配反映所述选定轨迹在未来状态中的所述计算奖励和预期性能的评估值。
[0017]在上述任一项中,所述第一组状态数据和所述第二组状本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练自动驾驶汽车的运动规划器的系统,其特征在于,所述系统包括处理单元,所述处理单元用于执行指令以使所述系统:接收第一组状态数据,作为对所述运动规划器的轨迹评估器代理的输入,所述第一组状态数据定义了所述自动驾驶汽车的当前状态和在当前时间跳变的环境;基于所述当前状态选择选定轨迹;基于所述选定轨迹在所述当前状态下的性能,计算所述选定轨迹的奖励;接收第二组状态数据,所述第二组状态数据定义了所述自动驾驶汽车的下一个状态和在下一个时间跳变的环境;基于所述当前状态、所述选定轨迹、计算奖励和所述下一个状态更新所述轨迹评估器代理的参数,所述轨迹评估器代理的所述参数被更新以为所述选定轨迹分配反映所述选定轨迹在未来状态中的所述计算奖励和预期性能的评估值。2.根据权利要求1所述的系统,其特征在于,所述第一组状态数据和所述第二组状态数据各自独立地包括以2D图像形式编码的状态数据。3.根据权利要求1或2所述的系统,其特征在于,所述轨迹评估器代理的所述参数根据以下等式更新:V(s
t
,τ
t
)

r
t
+γV(s
t+1
,τ
t+1
)其中,s
t
是在所述当前时间跳变t的所述当前状态,τ
t
是所述选定轨迹,r
t
是所述计算奖励,V(s
t

t
)是所述选定轨迹在所述当前时间跳变和所述当前状态的所述评估值,t+1是所述下一个时间跳变,V(s
t+1

t+1
)是所述选定轨迹在所述下一个时间跳变和所述下一个状态的评估值,γ是折扣因子。4.根据权利要求1至3中任一项所述的系统,其特征在于,所述轨迹评估器的所述参数根据以下等式更新:V(s
t
,τ
t
)

r
t
+γV(s
t+1
,TS(s
t+1
))其中,s
t
是在所述当前时间跳变t的所述当前状态,τ
t
是所述选定轨迹,r
t
是所述计算奖励,V(s
t

t
)是所述选定轨迹在所述当前时间跳变和所述当前状态的所述评估值,t+1是所述下一个时间跳变,TS(s
t+1
)是在所述下一个时间跳变的下一个选定轨迹,V(s
t+1
,TS(s
t+1
))是所述下一个选定轨迹和所述下一个状态的评估值,γ是折扣因子。5.根据权利要求1至4中任一项所述的系统,其特征在于,所述评估值生成为定义概率评估值的概率分布的一组统计度量。6.根据权利要求5所述的系统,其特征在于,根据基于一个或多个统计度量的选择标准选择所述选定轨迹。7.根据权利要求1至6中任一项所述的系统,其特征在于,定义候选轨迹的一组数据是根据轨迹生成函数定义所述候选轨迹的一组参数。8.根据权利要求7所述的系统,其特征在于,所述处理单元用于执行指令以进一步使所述系统:根据所述轨迹生成函数,从所述一组参数生成所述选定轨迹。9.根据权利要求1至8中任一项所述的系统,其特征在于,所述选定轨迹由一组2D图像定义,所述一组2D图像定义所述候选轨迹在多个时间跳变上的航点。10.一种用于训练自动驾驶汽车的运动规划器的方法,其特征在于,所述方法包括:
接收第一组状态数据,作为对所述运动规划器的轨迹评估器的输入,所述第一组状态数...

【专利技术属性】
技术研发人员:卡斯拉德
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1