换道决策确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36982690 阅读:9 留言:0更新日期:2023-03-25 18:01
本申请提供一种换道决策确定方法、装置、电子设备及存储介质,属于自动驾驶技术领域,该方法包括:获取决策信息,所述决策信息中包括多个换道决策,基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则,对各所述换道决策进行赋值,输出各换道决策的决策概率,最后基于所述决策概率,将所述决策概率最大的换道决策确定为目标换道决策,以指示目标车辆根据所述目标换道决策进行。解决了相关技术中换道决策确定方法安全性较低的问题。达到了提高换道决策确定方法安全性的效果。法安全性的效果。法安全性的效果。

【技术实现步骤摘要】
换道决策确定方法、装置、电子设备及存储介质


[0001]本申请涉及自动驾驶
,具体涉及一种换道决策确定方法、装置、电子设备及存储介质。

技术介绍

[0002]在车辆自动驾驶的过程中,可能存在车辆需要换道的情况,此时需要根据环境以及自车的状态判断是否需要进行换道。
[0003]相关技术中一种换道决策确定方法,通过将输入信息输入深度强化学习模型,得到深度强化学习模型输出的换道决策,以指示目标车辆根据换道决策进行换道。但是深度强化学习模型可能会输出危险的换道决策,此时目标车辆若按照深度强化学习模型输出的换道决策进行换道,可能存在危害驾驶安全的情况。因此,相关技术中的换道决策确定方法安全性较低。

技术实现思路

[0004]鉴于以上所述现有技术的缺点,本申请提供一种换道决策确定方法、装置、电子设备及存储介质,以解决上述技术问题。
[0005]本申请提供的一种换道决策确定方法,包括:
[0006]获取决策信息,所述决策信息中包括多个换道决策;
[0007]基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则,对各所述换道决策进行赋值,输出各换道决策的决策概率;
[0008]基于所述决策概率,将所述决策概率最大的换道决策确定为目标换道决策,以指示目标车辆根据所述目标换道决策进行。
[0009]于本专利技术一实施例中,所述基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则,对各所述换道决策进行赋值,输出各换道决策的决策概率,包括:
[0010]当根据所述决策信息确定所述目标车辆处于最左车道时,所述换道决策中向左变道的概率为0;
[0011]当根据所述决策信息确定所述目标车辆处于最右车道时,所述换道决策中向右变道的概率为0;
[0012]当根据所述决策信息确定所述目标车辆的当前速度大于前车的当前速度时,所述换道决策中保持直行的概率为0。
[0013]于本专利技术一实施例中,所述获取决策信息之前,所述方法还包括:
[0014]获取初始深度强化学习模型以及训练数据,所述预设规则添加在所述初始深度强化学习模型的激活函数之前,以对所述初始深度强化学习模型的输出进行约束;
[0015]根据所述训练数据以及损失函数对所述初始深度强化学习模型进行训练;
[0016]当损失函数值趋于稳定时,所述初始深度强化学习模型训练结束,得到所述深度
强化学习模型。
[0017]于本专利技术一实施例中,所述获取训练数据,包括:
[0018]构建仿真环境,所述仿真环境包括目标车辆;
[0019]根据所述目标车辆的当前状态以及周围的环境信息确定所述训练数据;
[0020]根据所述初始深度强化学习模型输出的目标换道决策,在所述仿真环境中更新所述目标车辆的当前状态以及周围的环境信息。
[0021]为实现上述目的及其他相关目的,本申请提供一种换道决策确定装置,包括:
[0022]数据获取模块,用于获取决策信息,所述决策信息中包括多个换道决策;
[0023]数据处理模块,用于基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则,对各所述换道决策进行赋值,输出各换道决策的决策概率;
[0024]确定模块,用于基于所述决策概率,将所述决策概率最大的换道决策确定为目标换道决策,以指示目标车辆根据所述目标换道决策进行。
[0025]于本专利技术一实施例中,所述数据处理模块还用于:
[0026]当根据所述决策信息确定所述目标车辆处于最左车道时,所述换道决策中向左变道的概率为0;
[0027]当根据所述决策信息确定所述目标车辆处于最右车道时,所述换道决策中向右变道的概率为0;
[0028]当根据所述决策信息确定所述目标车辆的当前速度大于前车的当前速度时,所述换道决策中保持直行的概率为0。
[0029]于本专利技术一实施例中,所述换道决策确定装置还包括:
[0030]模型训练模块,用于获取初始深度强化学习模型以及训练数据,所述预设规则添加在所述初始深度强化学习模型的激活函数之前,以对所述初始深度强化学习模型的输出进行约束,根据所述训练数据以及损失函数对所述初始深度强化学习模型进行训练,当损失函数值趋于稳定时,所述初始深度强化学习模型训练结束,得到所述深度强化学习模型。
[0031]于本专利技术一实施例中,所述模型训练模块还用于:
[0032]构建仿真环境,所述仿真环境包括目标车辆;
[0033]根据所述目标车辆的当前状态以及周围的环境信息确定所述训练数据;
[0034]根据所述初始深度强化学习模型输出的目标换道决策,在所述仿真环境中更新所述目标车辆的当前状态以及周围的环境信息。
[0035]为实现上述目的及其他相关目的,本申请还提供一种电子设备,所述电子设备包括:
[0036]一个或多个处理器;
[0037]存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现前述的任一个实施例所述的一个或多个所述的换道决策确定方法。
[0038]为实现上述目的及其他相关目的,本申请还提供一种计算机可读存储介质,其上存储有指令,当由一个或多个处理器执行时,使得设备实现前述的任一个实施例所述的换道决策确定方法。
[0039]如上所述,本申请提供的一种换道决策确定方法、装置、电子设备及存储介质,具有以下有益效果:
[0040]本申请中的一种换道决策确定方法,该方法通过获取决策信息,其中决策信息中包括多个换道决策,之后基于决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则,对各换道决策进行赋值,并输出各换道决策的决策概率,最后基于决策概率,将决策概率最大的换道决策确定为目标换道决策,以指示目标车辆根据目标换道决策进行。通过在确定换道决策的过程中添加用于约束深度强化学习模型输出结果的预设规则,并根据预设规则以及决策信息确定各个换道决策的决策概率,最后选择决策概率最大的换道决策为目标换道决策,解决了相关技术中换道决策确定方法安全性较低的问题。达到了提高换道决策确定方法安全性的效果。
[0041]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0042]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
[0043]图1是本申请的一示例性实施例示出的换道决策确定方法的流程图;
[0044]图2是本申请的一示例性实施例示出的换道决策确定装置的框图;
[0045]图3示出了适于用来实现本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种换道决策确定方法,其特征在于,所述方法包括:获取决策信息,所述决策信息中包括多个换道决策;基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则,对各所述换道决策进行赋值,输出各换道决策的决策概率;基于所述决策概率,将所述决策概率最大的换道决策确定为目标换道决策,以指示目标车辆根据所述目标换道决策进行换道。2.根据权利要求1所述的换道决策确定方法,其特征在于,所述基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则,对各所述换道决策进行赋值,输出各换道决策的决策概率,包括:当根据所述决策信息确定所述目标车辆处于最左车道时,所述换道决策中向左变道的概率为0;当根据所述决策信息确定所述目标车辆处于最右车道时,所述换道决策中向右变道的概率为0;当根据所述决策信息确定所述目标车辆的当前速度大于前车的当前速度时,所述换道决策中保持直行的概率为0。3.根据权要要求1所述的换道决策确定方法,其特征在于,所述获取决策信息之前,所述方法还包括:获取训练数据以及初始深度强化学习模型,所述预设规则添加在所述初始深度强化学习模型的激活函数之前,以对所述初始深度强化学习模型的输出进行约束;根据所述训练数据以及损失函数对所述初始深度强化学习模型进行训练;当损失函数值趋于稳定时,所述初始深度强化学习模型训练结束,得到所述深度强化学习模型。4.根据权利要求3所述的换道决策确定方法,其特征在于,所述获取训练数据,包括:构建仿真环境,所述仿真环境包括目标车辆;根据所述目标车辆的当前状态以及周围的环境信息确定所述训练数据;根据所述初始深度强化学习模型输出的目标换道决策,在所述仿真环境中更新所述目标车辆的当前状态以及周围的环境信息。5.一种换道决策确定装置,其特征在于,所述换道决策确定装置包括:数据获取模块,用于获取决策信息,所述决策信息中包括多个换道决策;数据处理模块,用于基于所述决策信息、深度强化学习...

【专利技术属性】
技术研发人员:潘其龙
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1