车辆的交互决策方法、装置、电子设备和存储介质制造方法及图纸

技术编号:39323569 阅读:15 留言:0更新日期:2023-11-12 16:02
本公开实施例公开了一种车辆的交互决策方法、装置、电子设备和存储介质,该方法通过在当前车辆的预决策轨迹中确定多个横向行为语义,从首个横向行为语义开始,依次确定每个横向行为语义下的各预测状态信息,最终根据所有横向行为语义下的各预测状态信息的状态收益,得到当前车辆在预决策轨迹中的第一纵向加速度序列、以及各障碍物的决策轨迹和对应的第二纵向加速度序列,实现了当前车辆的纵向行为决策,以及障碍物的横纵向行为决策,该方法在一个状态交互求解出纵向行为的基础上依次预测下一个状态,使得各状态中障碍物意图预测更加准确,解决了由于不同状态下自车行为改变及障碍物意图变化所导致的决策准确性低的问题,提高了决策可靠性。高了决策可靠性。高了决策可靠性。

【技术实现步骤摘要】
车辆的交互决策方法、装置、电子设备和存储介质


[0001]本公开涉及自动驾驶
,尤其涉及一种车辆的交互决策方法、装置、电子设备和存储介质。

技术介绍

[0002]作为自动驾驶的汽车,在决策层面最难的就是与障碍物之间的交互的处理。如果自车错误的预测了障碍物的意图,会导致自车做出不合理的决策。同时由于障碍物的意图在时间序列上是不断变化的,具有不可直接观测性。
[0003]自车与障碍物的交互决策实际上是一个POMDP(Partially Observable Markov Decision Process,部分可观察马尔可夫决策过程)的问题,现有技术通常通过POMDP一次预测出障碍物在整个过程中的意图。
[0004]然而,在不同的状态(state)自车的行为进行了改变,障碍物的意图的改变是不可被完全观测的,这就导致决策准确性降低。

技术实现思路

[0005]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种车辆的交互决策方法、装置、电子设备和存储介质,实现状态的逐步预测,使得障碍物意图预测更准确,提高了决策可靠性。
[0006]第一方面,本公开实施例提供了一种车辆的交互决策方法,该方法包括:
[0007]在当前车辆的预决策轨迹中确定多个横向行为语义,并获取与所述当前车辆对应的障碍物的预测轨迹,横向行为语义用于描述所述当前车辆的横向行为;
[0008]根据初始状态信息确定首个横向行为语义下的多个目标纵向行为解,基于各目标纵向行为解确定首个横向行为语义下的各预测状态信息,并基于各预测状态信息确定下一个横向行为语义下的多个目标纵向行为解,直至得到最后一个横向行为语义下的各预测状态信息,所述目标纵向行为解包括所述当前车辆的纵向加速度以及所述障碍物的纵向加速度;
[0009]根据所有横向行为语义下的各预测状态信息的状态收益,确定所述当前车辆在所述预决策轨迹中的第一纵向加速度序列、以及所述障碍物的决策轨迹和对应的第二纵向加速度序列;
[0010]其中,状态信息用于描述所述当前车辆、所述障碍物的速度和位置,所述初始状态信息为当前时刻的状态信息,所述预测状态信息为对应横向行为语义中结束时刻的状态信息。
[0011]第二方面,本公开实施例还提供了一种车辆的交互决策装置,该装置包括:
[0012]获取模块,用于在当前车辆的预决策轨迹中确定多个横向行为语义,并获取与所述当前车辆对应的障碍物的预测轨迹,横向行为语义用于描述所述当前车辆的横向行为;
[0013]状态确定模块,用于根据初始状态信息确定首个横向行为语义下的多个目标纵向
行为解,基于各目标纵向行为解确定首个横向行为语义下的各预测状态信息,并基于各预测状态信息确定下一个横向行为语义下的多个目标纵向行为解,直至得到最后一个横向行为语义下的各预测状态信息,所述目标纵向行为解包括所述当前车辆的纵向加速度以及所述障碍物的纵向加速度;
[0014]决策模块,用于根据所有横向行为语义下的各预测状态信息的状态收益,确定所述当前车辆在所述预决策轨迹中的第一纵向加速度序列、以及所述障碍物的决策轨迹和对应的第二纵向加速度序列;
[0015]其中,状态信息用于描述所述当前车辆、所述障碍物的速度和位置,所述初始状态信息为当前时刻的状态信息,所述预测状态信息为对应横向行为语义中结束时刻的状态信息。
[0016]第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的车辆的交互决策方法。
[0017]第四方面,本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的车辆的交互决策方法。
[0018]本公开实施例提供的一种车辆的交互决策方法,通过在当前车辆的预决策轨迹中确定多个横向行为语义,并获取各障碍物的预测轨迹,进而根据初始状态信息,确定首个横向行为语义下的多个目标纵向行为解,根据各目标纵向行为解确定首个横向行为语义下的各预测状态信息,并通过各预测状态信息确定下一个横向行为语义下的多个目标纵向行为解,直至得到最后一个横向行为语义下的各预测状态信息,最终根据所有横向行为语义下的各预测状态信息的状态收益,得到当前车辆在预决策轨迹中的第一纵向加速度序列、以及各障碍物的决策轨迹和对应的第二纵向加速度序列,实现了当前车辆的纵向行为决策,以及障碍物的横纵向行为决策,该方法基于一个状态求解的目标纵向行为解,继续预测下一个状态,以在一个状态交互求解出纵向行为的基础上依次预测下一个状态,使得各状态中障碍物意图预测更加准确,解决了由于不同状态下自车行为改变及障碍物意图变化所导致的决策准确性低的问题,提高了决策可靠性。
附图说明
[0019]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0020]图1为本公开实施例中的一种车辆的交互决策方法的流程图;
[0021]图2为本公开实施例中的一种预决策轨迹的横向行为语义示意图;
[0022]图3为本公开实施例中的一种关键障碍物筛选示意图;
[0023]图4为本公开实施例中的一种行驶场景;
[0024]图5为本公开实施例中的另一种行驶场景;
[0025]图6为本公开实施例中的一种车道借用场景;
[0026]图7为本公开实施例中的一种车道保持场景;
[0027]图8为本公开实施例中的一种收益矩阵的示意图;
[0028]图9为本公开实施例中的一种局部最优行为解集的融合示意图;
[0029]图10为本申请实施例中的一种决策树的确定过程示意图;
[0030]图11为本公开实施例中的一种车辆的交互决策装置的结构示意图;
[0031]图12为本公开实施例中的一种电子设备的结构示意图。
具体实施方式
[0032]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0033]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0034]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0035]图1为本公开实施例中的一种车辆的交互决策方法的流程图。该方法可以由本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种车辆的交互决策方法,其特征在于,所述方法包括:在当前车辆的预决策轨迹中确定多个横向行为语义,并获取与所述当前车辆对应的障碍物的预测轨迹,横向行为语义用于描述所述当前车辆的横向行为;根据初始状态信息确定首个横向行为语义下的多个目标纵向行为解,基于各目标纵向行为解确定首个横向行为语义下的各预测状态信息,并基于各预测状态信息确定下一个横向行为语义下的多个目标纵向行为解,直至得到最后一个横向行为语义下的各预测状态信息,所述目标纵向行为解包括所述当前车辆的纵向加速度以及所述障碍物的纵向加速度;根据所有横向行为语义下的各预测状态信息的状态收益,确定所述当前车辆在所述预决策轨迹中的第一纵向加速度序列、以及所述障碍物的决策轨迹和对应的第二纵向加速度序列;其中,状态信息用于描述所述当前车辆、所述障碍物的速度和位置,所述初始状态信息为当前时刻的状态信息,所述预测状态信息为对应横向行为语义中结束时刻的状态信息。2.根据权利要求1所述的方法,其特征在于,所述根据初始状态信息确定首个横向行为语义下的多个目标纵向行为解,包括:根据初始状态信息以及每个障碍物分别对应的交互模型,确定每个障碍物分别对应的局部最优行为解集;对所有局部最优行为解集进行融合,得到首个横向行为语义下的多个目标纵向行为解。3.根据权利要求2所述的方法,其特征在于,所述根据初始状态信息以及每个障碍物分别对应的交互模型,确定每个障碍物分别对应的局部最优行为解集,包括:针对每一个所述障碍物,根据所述初始状态信息,调用所述障碍物对应的交互模型,计算所述当前车辆的各第一采样加速度以及所述障碍物的各第二采样加速度之间的收益矩阵;基于所述收益矩阵确定所述障碍物对应的局部最优行为解集。4.根据权利要求2所述的方法,其特征在于,所述对所有局部最优行为解集进行融合,得到首个横向行为语义下的多个目标纵向行为解,包括:针对每一个所述障碍物对应的局部最优行为解集,在其中确定与其它局部最优行为解集具备相同第一采样加速度的行为解,得到解交集;根据所有解交集中的行为解确定多个目标纵向行为解,并根据各解交集中行为解的单个收益,确定各目标纵向行为解的累计收益,其中,所述单个收益为所述当前车辆与单个障碍物交互的收益,所述累计收益为所述当前车辆与所有障碍物交互的收益;相应的,所述基于各目标纵向行为解确定首个横向行为语义下的各预测状态信息,包括:针对每一个所述目标纵向行为解,基于所述目标纵向行为解以及所述初始状态信息确定对应的预测状态信息,并根据所述目标纵向行为解的累计收益确定所述预测状态信息的状态收益。5.根据权利要求1所述的方法,其特征在于,所述获取与所述当前车辆对应的障碍物的预测轨迹,包括:在所述当前车辆的当前所在车道中,将距离所述当前车辆最近的前方障碍物和后方障
碍物作为关键障碍物;若所述预决策轨迹包括跟车轨迹段,则...

【专利技术属性】
技术研发人员:慕博文李凯伦张志晨
申请(专利权)人:驭势科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1