换道决策确定方法、装置、电子设备及存储介质制造方法及图纸

技术编号：36982690 阅读：9 留言：0更新日期：2023-03-25 18:01

本申请提供一种换道决策确定方法、装置、电子设备及存储介质，属于自动驾驶技术领域，该方法包括：获取决策信息，所述决策信息中包括多个换道决策，基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则，对各所述换道决策进行赋值，输出各换道决策的决策概率，最后基于所述决策概率，将所述决策概率最大的换道决策确定为目标换道决策，以指示目标车辆根据所述目标换道决策进行。解决了相关技术中换道决策确定方法安全性较低的问题。达到了提高换道决策确定方法安全性的效果。法安全性的效果。法安全性的效果。

全部详细技术资料下载

【技术实现步骤摘要】
换道决策确定方法、装置、电子设备及存储介质

[0001]本申请涉及自动驾驶
，具体涉及一种换道决策确定方法、装置、电子设备及存储介质。

技术介绍

[0002]在车辆自动驾驶的过程中，可能存在车辆需要换道的情况，此时需要根据环境以及自车的状态判断是否需要进行换道。
[0003]相关技术中一种换道决策确定方法，通过将输入信息输入深度强化学习模型，得到深度强化学习模型输出的换道决策，以指示目标车辆根据换道决策进行换道。但是深度强化学习模型可能会输出危险的换道决策，此时目标车辆若按照深度强化学习模型输出的换道决策进行换道，可能存在危害驾驶安全的情况。因此，相关技术中的换道决策确定方法安全性较低。

技术实现思路

[0004]鉴于以上所述现有技术的缺点，本申请提供一种换道决策确定方法、装置、电子设备及存储介质，以解决上述技术问题。
[0005]本申请提供的一种换道决策确定方法，包括：
[0006]获取决策信息，所述决策信息中包括多个换道决策；
[0007]基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则，对各所述换道决策进行赋值，输出各换道决策的决策概率；
[0008]基于所述决策概率，将所述决策概率最大的换道决策确定为目标换道决策，以指示目标车辆根据所述目标换道决策进行。
[0009]于本专利技术一实施例中，所述基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则，对各所述换道决策进行赋值，输出各换...

【技术保护点】

【技术特征摘要】
1.一种换道决策确定方法，其特征在于，所述方法包括：获取决策信息，所述决策信息中包括多个换道决策；基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则，对各所述换道决策进行赋值，输出各换道决策的决策概率；基于所述决策概率，将所述决策概率最大的换道决策确定为目标换道决策，以指示目标车辆根据所述目标换道决策进行换道。2.根据权利要求1所述的换道决策确定方法，其特征在于，所述基于所述决策信息、深度强化学习模型以及用于约束深度强化学习模型输出结果的预设规则，对各所述换道决策进行赋值，输出各换道决策的决策概率，包括：当根据所述决策信息确定所述目标车辆处于最左车道时，所述换道决策中向左变道的概率为0；当根据所述决策信息确定所述目标车辆处于最右车道时，所述换道决策中向右变道的概率为0；当根据所述决策信息确定所述目标车辆的当前速度大于前车的当前速度时，所述换道决策中保持直行的概率为0。3.根据权要要求1所述的换道决策确定方法，其特征在于，所述获取决策信息之前，所述方法还包括：获取训练数据以及初始深度强化学习模型，所述预设规则添加在所述初始深度强化学习模型的激活函数之前，以对所述初始深度强化学习模型的输出进行约束；根据所述训练数据以及损失函数对所述初始深度强化学习模型进行训练；当损失函数值趋于稳定时，所述初始深度强化学习模型训练结束，得到所述深度强化学习模型。4.根据权利要求3所述的换道决策确定方法，其特征在于，所述获取训练数据，包括：构建仿真环境，所述仿真环境包括目标车辆；根据所述目标车辆的当前状态以及周围的环境信息确定所述训练数据；根据所述初始深度强化学习模型输出的目标换道决策，在所述仿真环境中更新所述目标车辆的当前状态以及周围的环境信息。5.一种换道决策确定装置，其特征在于，所述换道决策确定装置包括：数据获取模块，用于获取决策信息，所述决策信息中包括多个换道决策；数据处理模块，用于基于所述决策信息、深度强化学习...

【专利技术属性】
技术研发人员：潘其龙，
申请(专利权)人：重庆长安汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人