自动驾驶决策方法、模型训练方法、相关装置及电子设备制造方法及图纸

技术编号:36000796 阅读:10 留言:0更新日期:2022-12-17 23:18
本公开提供了一种自动驾驶决策方法、模型训练方法、相关装置及电子设备,涉及数据处理技术领域,具体涉及自动驾驶技术领域。具体实现方案为:在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。物交互时所述车辆的目标行为决策。物交互时所述车辆的目标行为决策。

【技术实现步骤摘要】
自动驾驶决策方法、模型训练方法、相关装置及电子设备


[0001]本公开涉及数据处理
,尤其涉及自动驾驶
,具体涉及一种自动驾驶决策方法、模型训练方法、相关装置及电子设备。

技术介绍

[0002]车辆如自动驾驶车辆在与周围交通参与者交互的同时,需要输出安全合理的行驶决策,例如超车、让行等,这在自动驾驶领域非常重要。
[0003]目前,车辆的自动驾驶决策方式通常是使用周围交通参与者的预测行为进行本车的行驶决策规划。

技术实现思路

[0004]本公开提供了一种自动驾驶决策方法、模型训练方法、相关装置及电子设备。
[0005]根据本公开的第一方面,提供了一种自动驾驶决策方法,包括:
[0006]在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;
[0007]确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;
[0008]基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;
[0009]在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。
[0010]根据本公开的第二方面,提供了一种模型训练方法,包括:
[0011]获取仿真集合,所述仿真集合包括车辆与障碍物交互的M个场景样本,M为大于1的整数;
[0012]确定所述M个场景样本对应的M个第二交互关键参数;
[0013]对所述M个场景样本对应的M个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;
[0014]确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;
[0015]基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
[0016]根据本公开的第三方面,提供了一种自动驾驶决策装置,包括:
[0017]第一获取模块,用于在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;
[0018]第一确定模块,用于确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;
[0019]构建模块,用于基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;
[0020]第二确定模块,用于在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。
[0021]根据本公开的第四方面,提供了一种模型训练装置,包括:
[0022]第二获取模块,用于获取仿真集合,所述仿真集合包括车辆与障碍物交互的M个场景样本,M为大于1的整数;
[0023]第四确定模块,用于确定所述M个场景样本对应的M个第二交互关键参数;
[0024]评估模块,用于对所述M个场景样本对应的M个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;
[0025]第五确定模块,用于确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;
[0026]更新模块,用于基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。
[0027]根据本公开的第五方面,提供了一种电子设备,包括:
[0028]至少一个处理器;以及
[0029]与至少一个处理器通信连接的存储器;其中,
[0030]存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
[0031]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行第一方面中的任一项方法,或者执行第二方面中的任一项方法。
[0032]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现第一方面中的任一项方法,或者执行时实现第二方面中的任一项方法。
[0033]根据本公开的第八方面,提供了一种自动驾驶车辆,包括如第五方面所述的电子设备。
[0034]根据本公开的技术解决了对自动驾驶车辆在与障碍物交互时的行为决策准确性比较低的问题,提高了对自动驾驶车辆的行为决策的准确性。
[0035]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0036]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0037]图1是根据本公开第一实施例的自动驾驶决策方法的流程示意图;
[0038]图2是第一博弈树的结构示意图;
[0039]图3是根据本公开第二实施例的模型训练方法的流程示意图;
[0040]图4是迭代训练目标模型的流程示意图;
[0041]图5是根据本公开第三实施例的自动驾驶决策装置的结构示意图;
[0042]图6是根据本公开第四实施例的模型训练装置的结构示意图;
[0043]图7是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0044]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0045]第一实施例
[0046]如图1所示,本公开提供一种自动驾驶决策方法,包括如下步骤:
[0047]步骤S101:在检测到车辆与第一障碍物存在交互的情况下,获取所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动驾驶决策方法,包括:在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;在所述车辆与所述第一障碍物的交互模拟结束的情况下,基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策。2.根据权利要求1所述的方法,其中,所述确定与所述第一场景特征对应的第一交互关键参数,包括:将所述第一场景特征输入至目标模型,得到所述目标模型输出的所述第一交互关键参数;其中,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。3.根据权利要求1所述的方法,其中,所述第一交互关键参数包括时间步长,所述基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树,包括:基于所述第一状态和预设的行为组合,确定从交互时开始,时长为所述时间步长的各个时刻的第二状态,所述行为组合包括:所述车辆和所述第一障碍物分别在所述时间步长的时间段内的驾驶行为,所述第二状态包括:模拟所述车辆和所述第一障碍物分别按照所述行为组合下的驾驶行为进行驾驶后的状态;基于所述第一状态和所述第二状态构建所述第一博弈树,所述第一状态为所述第一博弈树的根节点的状态,所述第二状态为所述第一博弈树的层级节点的状态。4.根据权利要求1所述的方法,其中,所述第一交互关键参数包括用于对所述第一博弈树中叶子节点进行评分的目标标准参数,所述基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策,包括:基于所述目标标准参数,对所述第一博弈树中每个叶子节点进行评分,得到所述叶子节点的评分值;从所述第一博弈树中选择评分值最高的叶子节点,得到目标叶子节点;基于所述车辆的目标驾驶行为,确定所述目标行为决策,所述目标驾驶行为为所述目标叶子节点对应路径下根节点到第一层的层级节点的驾驶行为。5.根据权利要求1所述的方法,还包括:在检测到车辆与第一障碍物存在交互的情况下,若检测到所述车辆与第二障碍物存在交互,确定与所述第二障碍物交互时所述车辆的第一行为决策;所述基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的目标行为决策,包括:基于所述第一博弈树和所述第一交互关键参数,确定与所述第一障碍物交互时所述车辆的第二行为决策;基于所述第一行为决策和所述第二行为决策,确定所述目标行为决策。6.一种模型训练方法,包括:
获取仿真集合,所述仿真集合包括车辆与障碍物交互的M个场景样本,M为大于1的整数;确定所述M个场景样本对应的M个第二交互关键参数;对所述M个场景样本对应的M个第三行为决策进行评估,得到目标场景样本,所述第三行为决策是基于模拟所述场景样本中车辆与障碍物交互的博弈树和所述第二交互关键参数确定的,所述目标场景样本为在车辆的第三行为决策下通行效率和/或安全性不达标的场景样本,博弈树是基于车辆和障碍物分别在交互时的状态构建的;确定所述目标场景样本对应的第三交互关键参数,所述第三交互关键参数为指示所述目标场景样本下车辆与障碍物的交互结果在通行效率和安全性上达标的交互关键参数;基于所述目标场景样本对应的场景特征和所述第三交互关键参数,更新目标模型的模型参数,所述目标模型用于表征车辆与障碍物交互的场景特征和交互关键参数的映射关系。7.根据权利要求6所述的方法,其中,所述确定所述M个场景样本对应的M个第二交互关键参数,包括:获取所述M个场景样本对应的M个场景特征;将所述M个场景特征分别输入至目标模型,得到所述目标模型输出的所述M个第二交互关键参数。8.根据权利要求6所述的方法,其中,所述确定所述目标场景样本对应的第三交互关键参数,包括:基于预设的N个交互关键参数,分别对所述目标场景样本下车辆与障碍物的交互结果进行评分,得到所述N个交互关键参数对应的N个评分值;将所述N个评分值中最高的评分值对应的交互关键参数确定为所述第三交互关键参数。9.一种自动驾驶决策装置,包括:第一获取模块,用于在检测到车辆与第一障碍物存在交互的情况下,获取所述车辆与所述第一障碍物交互时的第一场景特征和第一状态;第一确定模块,用于确定与所述第一场景特征对应的第一交互关键参数,所述第一交互关键参数用于对与所述第一障碍物交互时所述车辆的驾驶行为进行评估;构建模块,用于基于所述第一状态,构建用于模拟所述车辆与所述第一障碍物交互的第一博弈树;第二确...

【专利技术属性】
技术研发人员:赵昊玮和家平张宇杰李一贤柳长春
申请(专利权)人:阿波罗智能技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1