【技术实现步骤摘要】
自动驾驶决策方法、模型训练方法、相关装置及电子设备
[0001]本公开涉及数据处理
,尤其涉及自动驾驶
,具体涉及一种自动驾驶决策方法、模型训练方法、相关装置及电子设备。
技术介绍
[0002]车辆如自动驾驶车辆在与周围交通参与者交互的同时,需要输出安全合理的行驶决策,例如超车、让行等,这在自动驾驶领域非常重要。
[0003]目前,车辆的自动驾驶决策方式通常是使用周围交通参与者的预测行为进行本车的行驶决策规划。
技术实现思路
[0004]本公开提供了一种自动驾驶决策方法、模型训练方法、相关装置及电子设备。
[0005]根据本公开的第一方面,提供了一种自动驾驶决策方法,包括:
[0006]在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;
[0007]确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;
[0008]基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;
[0009]在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。
[0010]根据本公开的第二方面,提供了一种模型训练方法,包括:
[0011]获取仿真集合,所述仿真集合包括车辆与障碍物交互的M个场景样本,M为大于1的整数;
[ ...
【技术保护点】
【技术特征摘要】
1.一种自动驾驶决策方法,包括:在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。2.根据权利要求1所述的方法,其中,所述确定与所述第一场景特征对应的第一交互关键参数,包括:将所述第一场景特征输入至目标模型,得到所述目标模型输出的所述第一交互关键参数;其中,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。3.根据权利要求1所述的方法,其中,所述第一交互关键参数包括时间步长,所述基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树,包括:基于所述第一状态和预设的行为组合,确定从交互时开始,时长为所述时间步长的各个时刻的第二状态,所述行为组合包括:所述车辆和所述第一障碍物分别在所述时间步长的时间段内的驾驶行为,所述第二状态包括:模拟所述车辆和所述第一障碍物分别按照所述行为组合下的驾驶行为进行驾驶后的状态;基于所述第一状态和所述第二状态构建所述第一博弈树,所述第一状态为所述第一博弈树的根节点的状态,所述第二状态为所述第一博弈树的层级节点的状态。4.根据权利要求1所述的方法,其中,所述第一交互关键参数包括用于对所述第一博弈树中叶子节点进行评分的目标标准参数,所述基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策,包括:基于所述目标标准参数,对所述第一博弈树中每个叶子节点进行评分,得到所述叶子节点的评分值;从所述第一博弈树中选择评分值最高的叶子节点,得到目标叶子节点;基于所述车辆的目标驾驶行为,确定所述目标行为决策,所述目标驾驶行为为所述目标叶子节点对应路径下根节点到第一层的层级节点的驾驶行为。5.根据权利要求1所述的方法,还包括:在检测到车辆与第一障碍物存在交互的情况下,若检测到所述车辆与第二障碍物存在交互,确定与所述第二障碍物交互时所述车辆的第一行为决策;所述基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策,包括:基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的第二行为决策;基于所述第一行为决策和所述第二行为决策,确定所述目标行为决策。6.一种模型训练方法,包括:
获取仿真集合,所述仿真集合包括车辆与障碍物交互的M个场景样本,M为大于1的整数;确定所述M个场景样本对应的M个第二交互关键参数;对所述M个场景样本对应的M个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。7.根据权利要求6所述的方法,其中,所述确定所述M个场景样本对应的M个第二交互关键参数,包括:获取所述M个场景样本对应的M个场景特征;将所述M个场景特征分别输入至目标模型,得到所述目标模型输出的所述M个第二交互关键参数。8.根据权利要求6所述的方法,其中,所述确定所述目标场景样本对应的第三交互关键参数,包括:基于预设的N个交互关键参数,分别对所述目标场景样本下车辆与障碍物的交互结果进行评分,得到所述N个交互关键参数对应的N个评分值;将所述N个评分值中最高的评分值对应的交互关键参数确定为所述第三交互关键参数。9.一种自动驾驶决策装置,包括:第一获取模块,用于在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;第一确定模块,用于确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;构建模块,用于基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;第二确...
【专利技术属性】
技术研发人员:赵昊玮,和家平,张宇杰,李一贤,柳长春,
申请(专利权)人:阿波罗智能技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。