System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于自动驾驶仿真测试,尤其涉及一种用于自动驾驶测试的双模态驾驶员模型构建方法。
技术介绍
1、自动驾驶汽车是未来科技发展的重要方向,安全、成熟的自动驾驶汽车可以给社会带来巨大的经济效益。但自动驾驶汽车一旦出现事故,会导致驾乘人员的生命、财产安全受到严重威胁,因此需要在相关系统的开发过程中对其进行验证,最大限度保证运行过程中的安全性。
2、在开发过程中对自动驾驶汽车进行系统、全面的测试是保证其安全性的重要手段。通过对自动驾驶汽车进行测试,从而找到相应的安全关键场景,可以充分地暴露出系统存在的安全性缺陷。通过对暴露出的问题进行有针对性的解决,能够有效提升车辆的安全性能,推动自动驾驶技术的全面进步。
3、在现有测试方法中,通过驾驶员模型构建仿真交通环境,从而对自动驾驶汽车进行测试是一种重要手段。但对于非对抗型模型来说,其对主车的测试性较差;对于对抗型模型来说,通常难以实现在多种场景下的多车协作对抗,无法在运行设计域范围内对自动驾驶汽车全面、高效地测试。
技术实现思路
1、本专利技术的目的在于提供一种用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,包括以下步骤:
2、s1:通过驾驶员模型双模态设计,将驾驶员模型设计为具备单车驾驶模态和对抗性驾驶模态;
3、s2:通过深度强化学习对驾驶员模型进行训练,使得当驾驶员模型控制的背景车行驶在远离被测系统控制的主车的位置时,具备单车行驶能力;
4、s3:通过多智能体强化学习
5、进一步地,s1中:两种驾驶模态根据规则进行转换;单车驾驶模态中,当背景车行驶远离主车时,该背景车具备正常的行驶能力。
6、进一步地,s2中,单车驾驶模态覆盖主车运行设计域范围内的所有道路环境,使驾驶员模型在所有环境下对主车进行测试。
7、进一步地,s2具体包括以下步骤:
8、s21:根据设计的单车驾驶模态的特征,对强化学习训练中的个体奖励函数进行设计;
9、s22:采用具备自动驾驶能力的驾驶员模型构建仿真交通环境,对驾驶员模型单车驾驶模态的特征进行训练。
10、进一步地,s21中,强化学习训练的个体奖励函数设计表示为:
11、
12、其中,rcf用于对模型的纵向驾驶行为进行引导,包含对动作执行后的状态和动作执行前后状态差异的量化,当模型的跟车距离越接近于目标跟车距离时,rcf越大;当动作执行后的跟车距离相对动作执行前更接近于目标跟车距离时,rcf越大;rlc用于对模型的横向换道行为进行引导,换道行为用于避障或获取更大的前方行驶空间,当换道的目标车道前方的距离越大时,rlc越大;rrv用于对模型的违规驾驶行为进行规避性引导,当模型做出违规驾驶行为时,赋予负奖励rrv。
13、进一步地,s22中,采用level-k训练框架结合强化学习算法对驾驶员模型进行训练,具体包括以下步骤:
14、s221:将训练环境中的其他环境车辆设定为只具备纵向加减速能力的level-0模型,对随机初始化的level-1驾驶员模型进行训练,多次迭代训练后,level-1驾驶员模型针对其他车辆的纵向加减速行为,做出应对的加减速行为和换道行为;
15、s222:将训练结束的level-1模型放入训练环境中控制环境车辆,并将该模型作为基础对level-2驾驶员模型进行训练,多次迭代训练后,level-2驾驶员模型针对其他车辆的纵向加减速行为和换道行为,做出相应的加减速和换道行为,且训练完成的level-2驾驶员模型为具有单车驾驶模态的驾驶员模型。
16、进一步地,s3中,对抗性驾驶模态具备可扩展性,可扩展性使驾驶员模型在不同场景下均能够表现出设计的特征。
17、进一步地,s3具体包括以下步骤:
18、s31:根据设计的对抗性驾驶模态特征,对marl训练中的协作奖励及其分配方式进行设计;
19、s32:构建仿真交通环境作为训练环境,训练环境中包含主车,以经过s2训练后的驾驶员模型作为基础,对该驾驶员模型的对抗性驾驶模态特征进行训练。
20、进一步地,s31中,收集所有agent的数据用于对模型的训练,其中,对于模态转换判定区外的agent,根据其行为赋予个体奖励;对于模态转换判定区内的agent,根据对主车的对抗性交互结果,对协作奖励进行计算,并在所有模态转换判定区内的agent之间共享,按照奖励分配机制分配给每个agent;
21、奖励分配机制采用模态转换判定区内的所有模型平均分配,表示为:
22、
23、进一步地,s32中,marl训练中的协作奖励函数表示为:
24、rcooperation=rl+rr+rf
25、其中,rl为基于模型对主车左侧换道空间的压缩情况赋予奖励,其计算公式表示为:
26、
27、rr为基于模型对主车右侧换道空间的压缩情况赋予奖励,其计算公式表示为:
28、
29、rf为基于模型对主车所在车道前方的可行驶空间的压缩情况赋予奖励,其计算公式表示为:
30、
31、当动作执行前后对空间的压缩效果越好,赋予的奖励值越大。
32、与现有技术相比,本专利技术的有益效果主要体现在:
33、1、本专利技术构建的驾驶员模型具备两种驾驶模态,单车驾驶模态和对抗性驾驶模态,会根据与主车的交互距离进行自适应转换。在连续运行的测试环境中,这种设计使得远离主车的驾驶员模型表现出正常的驾驶行为,推动整个测试环境连续正常运行;而其中的主车行驶到地图中的任何位置时,周围的驾驶员模型均能够表现出对抗性的驾驶特征并与其进行交互,从而实现整个测试过程中对主车的持续性对抗和连续、高效测试,有效提升了对自动驾驶汽车的测试能力。
34、2、本专利技术构建的驾驶员模型具备可扩展的对抗性特征,驾驶员模型通过独立的模型实现决策,可以摆脱场景的限制,在不同背景车数量和不同背景车位置组合的场景下通过单车或多车协作行为与主车进行对抗,从而实现更复杂、多样、全面的安全关键场景生成和测试,提升对自动驾驶汽车的测试性能。
本文档来自技高网...【技术保护点】
1.一种用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S1中:两种驾驶模态根据规则进行转换;单车驾驶模态中,当背景车行驶远离主车时,该模型具备正常的行驶能力。
3.根据权利要求1所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S2中,单车驾驶模态覆盖主车运行设计域范围内的所有道路环境,使驾驶员模型在所有环境下对主车进行测试。
4.根据权利要求1所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S2具体包括以下步骤:
5.根据权利要求4所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S21中,所述强化学习训练的个体奖励函数设计表示为:
6.根据权利要求4所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S22中,采用level-k训练框架结合强化学习算法对驾驶员模型进行训练,具体包括以下步骤:
7.根据权利要求1所述的用于自动驾驶测试的
8.根据权利要求1所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S3具体包括以下步骤:
9.根据权利要求8所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S31中,收集所有Agent的数据用于对模型的训练,其中,对于模态转换判定区外的Agent,根据其行为赋予个体奖励;对于模态转换判定区内的Agent,根据对主车的对抗性交互结果,对协作奖励进行计算,并在所有模态转换判定区内的Agent之间共享,按照奖励分配机制分配给每个Agent;
10.根据权利要求8所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述S32中,MARL训练中的协作奖励函数表示为:
...【技术特征摘要】
1.一种用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述s1中:两种驾驶模态根据规则进行转换;单车驾驶模态中,当背景车行驶远离主车时,该模型具备正常的行驶能力。
3.根据权利要求1所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述s2中,单车驾驶模态覆盖主车运行设计域范围内的所有道路环境,使驾驶员模型在所有环境下对主车进行测试。
4.根据权利要求1所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述s2具体包括以下步骤:
5.根据权利要求4所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述s21中,所述强化学习训练的个体奖励函数设计表示为:
6.根据权利要求4所述的用于自动驾驶测试的双模态驾驶员模型构建方法,其特征在于,所述s22中,采用level-k训练框架结合强化...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。