面向自动驾驶测试的多样关键场景生成方法、装置及设备制造方法及图纸

技术编号:38824258 阅读:14 留言:0更新日期:2023-09-15 20:03
本公开涉及一种面向自动驾驶测试的多样关键场景生成方法、装置及设备,属于自动驾驶测试技术领域。所述方法包括:获取个原子动作,并针对每个原子动作建立原子动作模型;基于场景描述信息获取测试区域,以及在测试区域中设置被测对象的行驶路线;针对各个原子动作模型,初始化原子动作模型对应的经验回放池,并基于场景描述信息、测试区域以及行驶路线,构建样本数据以存储至经验回放池;针对各个原子动作模型,从相应经验回放池中抽取样本数据对原子动作模型进行参数更新;结合目标测试任务的场景描述信息所涉及的原子动作的原子动作模型,生成用于实现目标测试任务的关键场景。本公开能够提升关键场景的生成效率,实现多样关键场景的快速生成。关键场景的快速生成。关键场景的快速生成。

【技术实现步骤摘要】
面向自动驾驶测试的多样关键场景生成方法、装置及设备


[0001]本公开涉及自动驾驶测试
,尤其涉及一种面向自动驾驶测试的多样关键场景生成方法、装置及设备。

技术介绍

[0002]基于场景的测试方法是自动驾驶系统工程中的关键环节。由于驾驶环境和驾驶任务的复杂性,自动驾驶系统可能遇到的驾驶场景数量是无限的。因此必须对场景进行识别,生成那些有着高风险(车辆碰撞)的关键场景,这对于自动驾驶系统设计、确认和验证工作及其安全基础尤为重要,关乎自动驾驶研发的效率、安全与质量。
[0003]关键场景生成旨在从给定的逻辑场景中找到具体的关键场景,其中,逻辑场景是具有参数定义和取值范围的状态空间级别的场景,而具体场景是具有具体参数值的逻辑场景的具体化。因此,如何从无限参数空间中找到具体临界参数成为关键场景生成技术面临的核心挑战。相关技术采用的关键场景生成方法基于随机测试或组合测试,前者通过随机测试直接从逻辑场景的参数范围中采样,得到具体场景中参与者行动所需要的参数;后者通过组合测试生成多组尽可能覆盖参数范围的具体参数值得到多个参数组合,然后在仿真软件中基于参数组合模拟具体场景的执行以观测是否发生高风险事故,若发生则将该参数组合构成的具体场景标注为关键场景,否则继续采样得到新的参数组合。
[0004]然而,由于关键场景的数量稀少,采用相关技术中随机测试或组合测试的方式,通常需要采样近百次才能获得一个关键场景,生成效率低下。

技术实现思路

[0005]本专利技术提出了一种面向自动驾驶测试的多样关键场景生成方法、装置及设备,能够提升关键场景的生成效率,实现多样关键场景的快速生成。
[0006]根据本公开实施例的第一方面,提供了一种面向自动驾驶测试的多样关键场景生成方法,包括:
[0007]获取n个原子动作,并针对每个原子动作建立原子动作模型,所述n为正整数;其中,所述原子动作是在场景参与者的动作划分基础上,结合所述场景参与者与被测对象之间的定向关系所划分的最小动作单元;
[0008]针对各个原子动作,获取所述原子动作对应的场景描述信息,并基于所述原子动作对应的场景描述信息获取测试区域,以及在所述测试区域中设置所述被测对象的行驶路线;
[0009]针对各个原子动作模型,初始化所述原子动作模型对应的经验回放池,并基于相应原子动作对应的场景描述信息、测试区域以及行驶路线,构建样本数据以存储至所述经验回放池;
[0010]针对各个原子动作模型,从相应经验回放池中抽取样本数据对所述原子动作模型进行参数更新;
[0011]获取目标测试任务的场景描述信息,并结合所述目标测试任务的场景描述信息所涉及的原子动作的原子动作模型,生成用于实现所述目标测试任务的关键场景,所述关键场景是指所述被测对象和所述场景参与者发生碰撞的概率最大的测试场景。
[0012]可选地,所述获取目标测试任务的场景描述信息,并结合所述目标测试任务的场景描述信息所涉及的原子动作的原子动作模型,生成用于实现所述目标测试任务的关键场景,包括:
[0013]获取所述目标测试任务的场景描述信息,并从所述目标测试任务的场景描述信息中提取至少一个原子动作,所述至少一个原子动作属于所述n个原子动作;
[0014]按照时序逻辑关系组合所述至少一个原子动作的原子动作模型,得到关键场景生成模型;
[0015]通过所述关键场景生成模型和自动驾驶仿真测试平台,对输入的初始环境状态的确定参数值进行处理,获取所述至少一个原子动作的确定参数值;
[0016]基于所述目标测试任务的场景描述信息和所述至少一个原子动作的确定参数值,生成用于实现所述目标测试任务的关键场景。
[0017]可选地,所述原子动作模型包括:演员网络、演员网络对应的目标网络、第一评论员网络、第一评论员网络对应的目标网络、第二评论员网络、第二评论员网络对应的目标网络;其中,
[0018]所述演员网络,用于对输入的环境状态的参数值进行处理,输出原子动作的参数值;
[0019]所述第一评论员网络和所述第二评论员网络,用于对输入的样本数据进行处理,分别输出所述样本数据对应的第一评价值和第二评价值;
[0020]所述目标网络,用于稳定所述原子动作模型的期望收益;
[0021]并且,所述演员网络和所述演员网络的目标网络采用子网络结构,每个子网络建模原子动作的参数在相应参数空间的一个子区间上的分布。
[0022]可选地,所述针对各个原子动作模型,从相应经验回放池中抽取样本数据对所述原子动作模型进行参数更新,包括:
[0023]针对原子动作a
i
,从相应经验回放池中抽取目标数量的样本数据以用于所述原子动作a
i
的原子动作模型的参数更新;
[0024]通过所述第一评论员网络和所述第二评论员网络,对每个样本数据中环境状态s
i
的训练参数值和原子动作a
i
的训练参数值进行处理,分别获取所述原子动作a
i
对应的第一评价值和第二评价值;
[0025]通过所述演员网络的目标网络,对每个样本数据中环境状态s
i
的下一个环境状态的训练参数值进行处理,获取所述原子动作a
i
的下一个原子动作的预测参数值;
[0026]通过所述第一评论员网络的目标网络和所述第二评论员网络的目标网络,对每个样本数据中环境状态s
i
的下一个环境状态的训练参数值,以及所述原子动作a
i
的下一个原子动作的预测参数值进行处理,分别获取所述原子动作a
i
的下一个原子动作对应的第一评价值和第二评价值;
[0027]基于所有样本数据中所述原子动作a
i
对应的奖励、所述原子动作a
i
对应的第一评价值,以及所述原子动作a
i
的下一个原子动作对应的第一评价值,构建所述第一评论员网
络的损失函数;
[0028]基于所有样本数据中所述原子动作a
i
对应的奖励、所述原子动作a
i
对应的第二评价值,以及所述原子动作a
i
的下一个原子动作对应的第二评价值,构建所述第二评论员网络的损失函数;
[0029]按照所述第一评论员网络的损失函数和所述第二评论员网络的损失函数分别进行反向梯度传播,更新所述第一评论员网络和所述第二评论员网络的参数;
[0030]基于所述原子动作a
i
对应的第一评价值和第二评价值,构建所述演员网络的损失函数;
[0031]按照所述演员网络的损失函数进行反向梯度传播,更新所述演员网络的参数。
[0032]可选地,所述针对各个原子动作模型,初始化所述原子动作模型对应的经验回放池,并基于相应原子动作对应的场景描述信息、测试区域以及行驶路线,构建样本数据以存储至所述经验回放池,包括:
[0033]针本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向自动驾驶测试的多样关键场景生成方法,其特征在于,所述方法包括:获取个原子动作,并针对每个原子动作建立原子动作模型,所述为正整数;其中,所述原子动作是在场景参与者的动作划分基础上,结合所述场景参与者与被测对象之间的定向关系所划分的最小动作单元;针对各个原子动作,获取所述原子动作对应的场景描述信息,并基于所述原子动作对应的场景描述信息获取测试区域,以及在所述测试区域中设置所述被测对象的行驶路线;针对各个原子动作模型,初始化所述原子动作模型对应的经验回放池,并基于相应原子动作对应的场景描述信息、测试区域以及行驶路线,构建样本数据以存储至所述经验回放池;针对各个原子动作模型,从相应经验回放池中抽取样本数据对所述原子动作模型进行参数更新;获取目标测试任务的场景描述信息,并结合所述目标测试任务的场景描述信息所涉及的原子动作的原子动作模型,生成用于实现所述目标测试任务的关键场景,所述关键场景是指所述被测对象和所述场景参与者发生碰撞的概率最大的测试场景。2.根据权利要求1所述的方法,其特征在于,所述获取目标测试任务的场景描述信息,并结合所述目标测试任务的场景描述信息所涉及的原子动作的原子动作模型,生成用于实现所述目标测试任务的关键场景,包括:获取所述目标测试任务的场景描述信息,并从所述目标测试任务的场景描述信息中提取至少一个原子动作,所述至少一个原子动作属于所述个原子动作;按照时序逻辑关系组合所述至少一个原子动作的原子动作模型,得到关键场景生成模型;通过所述关键场景生成模型和自动驾驶仿真测试平台,对输入的初始环境状态的确定参数值进行处理,获取所述至少一个原子动作的确定参数值;基于所述目标测试任务的场景描述信息和所述至少一个原子动作的确定参数值,生成用于实现所述目标测试任务的关键场景。3.根据权利要求1所述的方法,其特征在于,所述原子动作模型包括:演员网络、演员网络对应的目标网络、第一评论员网络、第一评论员网络对应的目标网络、第二评论员网络、第二评论员网络对应的目标网络;其中,所述演员网络,用于对输入的环境状态的参数值进行处理,输出原子动作的参数值;所述第一评论员网络和所述第二评论员网络,用于对输入的样本数据进行处理,分别输出所述样本数据对应的第一评价值和第二评价值;所述目标网络,用于稳定所述原子动作模型的期望收益;并且,所述演员网络和所述演员网络的目标网络采用子网络结构,每个子网络建模原子动作的参数在相应参数空间的一个子区间上的分布。4.根据权利要求3所述的方法,其特征在于,所述针对各个原子动作模型,从相应经验回放池中抽取样本数据对所述原子动作模型进行参数更新,包括:针对原子动作,从相应经验回放池中抽取目标数量的样本数据以用于所述原子动作的原子动作模型的参数更新;通过所述第一评论员网络和所述第二评论员网络,对每个样本数据中环境状态的训练
参数值和原子动作的训练参数值进行处理,分别获取所述原子动作对应的第一评价值和第二评价值;通过所述演员网络的目标网络,对每个样本数据中环境状态的下一个环境状态的训练参数值进行处理,获取所述原子动作的下一个原子动作的预测参数值;通过所述第一评论员网络的目标网络和所述第二评论员网络的目标网络,对每个样本数据中环境状态的下一个环境状态的训练参数值,以及所述原子动作的下一个原子动作的预测参数值进行处理,分别获取所述原子动作的下一个原子动作对应的第一评价值和第二评价值;基于所有样本数据中所述原子动作对应的奖励、所述原子动作对应的第一评价值,以及所述原子动作的下一个原子动作对应的第一评价值,构建所述第一评论员网络的损失函数;基于所有样本数据中所述原子动作对应的奖励、所述原子动作对应的第二评价值,以及所述原子动作的下一个原子动作对应的第二评价值,构建所述第二评论员网络的损失函数;按照所述第一评论员网络的损失函数和所述第二评论员网络的损失函数分别进行反向梯度传播,更新所述第一评论员网络和所述第二评论员网络的参数;基于所述原子动作对应的第一评价值和第二评价值,构建所述...

【专利技术属性】
技术研发人员:薛云志康舒婷郭恒刘光镇董乾孟令中
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1