System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 自动驾驶汽车换道场景下对抗性测试评估方法技术_技高网
当前位置: 首页 > 专利查询>吉林大学专利>正文

自动驾驶汽车换道场景下对抗性测试评估方法技术

技术编号:41109229 阅读:4 留言:0更新日期:2024-04-25 14:02
一种自动驾驶汽车换道场景下对抗性测试评估方法,属于自动驾驶测试评估技术领域。本发明专利技术的目的是利用深度强化学习生成的对抗性环境中去测试评估车辆,采用了集成式DDPG深度强化学习算法,大大提高了训练效率的自动驾驶汽车换道场景下对抗性测试评估方法。本发明专利技术的步骤是:对抗性换道环境建模,强化学习算法和奖励函数设置,本车换道模型和对抗马尔可夫环境设置。本发明专利技术生成的对抗性环境比自然环境更加严峻,显著降低了测试车辆的性能,体现了方法的有效性。可以有效地找到罕见的风险场景,用于评估自动驾驶汽车。

【技术实现步骤摘要】

本专利技术属于自动驾驶测试评估。


技术介绍

1、自动驾驶汽车是一种智能汽车,通过电脑系统将决策规划、环境感知和控制执行融为一体,实现无人驾驶。随着自动驾驶技术的迅速进步,自动驾驶系统变得愈加复杂,这使得在其正式投入使用之前进行充分的测试和验证变得尤为关键。安全一直是智能汽车发展中的核心问题。研究表明,为了以95%的置信度验证自动驾驶汽车的安全性,至少需要在道路上进行100亿公里的测试。然而,要在无数种不同的场景下进行这些测试对自动驾驶企业来说是一个巨大挑战。传统的测试方法存在一些问题,例如周期长、成本高,难以适应自动驾驶汽车快速更新和复杂设计的需求。为了应对这些挑战,虚拟仿真技术应运而生。这种技术允许在计算机软件中模拟真实世界的驾驶环境,以进行测试和验证,从而降低成本并加速测试过程。虚拟仿真的核心在于创建各种不同的驾驶场景,这些场景是测试和验证的基础。通过设计合理的仿真场景,可以提高测试的效率,并增加验证的可信度。

2、目前基于场景的虚拟仿真测试方法主要使用自然驾驶数据集来实现场景的真实性,但是由于自然环境中风险场景的罕见性,导致自然驾驶数据集中的风险场景非常稀少,并且自然驾驶数据集是有限的,无法保证自然场景的覆盖率,所以完全由自然驾驶数据集中的场景去验证自动驾驶系统是有局限性的,可移植性差,测试评估结果严重依赖于自然驾驶数据集的完整性。


技术实现思路

1、本专利技术的目的是利用深度强化学习生成的对抗性环境中去测试评估车辆,采用了集成式ddpg深度强化学习算法,大大提高了训练效率的自动驾驶汽车换道场景下对抗性测试评估方法

2、本专利技术的步骤是:

3、s1、对抗性换道环境建模

4、将换道场景表述为一个由元组(s,a1,a2,p,r1,r2,γ)表示的二人马尔可夫博弈,其中s为状态空间,a1为自我车辆的动作空间,a2为背景车辆的动作空间,p:s×a1×a2×s为环境的动作转移概率,r1,r2为自我车辆和背景车辆的直接学习奖励;在马尔可夫决策过程中,每个主体的目标是通过策略πi:最大化自己的总期望收益t为时间步长;

5、s2、强化学习算法和奖励函数设置

6、μ(s∣θμ)是一个参数化函数,q(s,a)是动作值函数,是在状态st按照策略u采取动作at后的预期回报

7、

8、考虑用θq参数化的函数近似器,通过使损失最小来优化临界:

9、

10、yt=r(st,at)+γq(st+1,μ(st+1)∣θq)        (3)

11、其中β是不同的行为策略,θ表示状态分布;

12、actor通过策略梯度来更新参与者:

13、

14、创建actor网络和critic网络的副本:μ′(s∣θμ′)q′(s,a∣θq′);目标网络的参数被缓慢的更新的模型:θ′=τθ+(1-τ)θ′;

15、对手和自我代理的奖励函数是相反的:

16、radv=-rego        (5)

17、rego是自我车辆的驾驶性能;

18、放松零和假设,并在对抗性奖励函数中添加了另一项:

19、radv=-rego+βrrule      (6)

20、其中rrule是对违反交通规则的惩罚,β是超参数;

21、训练n个代理,随机初始化演员和评论家,省略探索,每个智能体,达到局部最优,或者一个情节的累积奖励已经达到某个边界c,则停止训练;

22、s3、本车换道模型和对抗马尔可夫环境设置

23、(1)基于规则的换道模型-间距接受模型mgap

24、临界间距为:

25、

26、gap g=lead,lag       (8)

27、其中为目标车辆临界间距;

28、(2)基于学习的换道模型mrl

29、对抗马尔可夫环境设置:mdp的状态空间s是9维向量空间:[xleader,xfollow,xtarget,vleader,vfollow,vtarget,vego,φego,yego],其中x表示对抗车辆和ego车辆之间的距离,v表示车辆的速度,φego表示ego车辆的偏航角,并且yego表示ego车辆的横向位置;

30、对抗性智能体的动作空间a是决定其纵向控制动作的三维向量空间:[aleader,afollow,atarget]。a是范围[-1,1]的浮点数,其中+1表示油门全开,-1表示刹车全开;

31、对手的奖励函数是radv=-rego+βrrule,rego是自我车辆的奖励函数,在换道场景中:

32、

33、函数奖励完成换道任务,并惩罚它的碰撞,敌对车辆违反交通规则,则rrule=0,将β=1设置为默认值。

34、本专利技术生成的对抗性环境比自然环境更加严峻,显著降低了测试车辆的性能,体现了方法的有效性。可以有效地找到罕见的风险场景,用于评估自动驾驶汽车。

本文档来自技高网...

【技术保护点】

1.一种自动驾驶汽车换道场景下对抗性测试评估方法,其特征在于:其步骤是:

【技术特征摘要】

1.一种自动驾驶汽车换道场景下对抗性...

【专利技术属性】
技术研发人员:陈虹宋旭胡云峰蔡硕刘俊宫洵王萍陈启军
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1