【技术实现步骤摘要】
本专利技术涉及自动驾驶测试领域领域,尤其涉及一种基于对抗奖励训练的自动驾驶危险场景生成方法及系统。
技术介绍
1、为了提高自动驾驶的安全性并证实其可靠性,在自动驾驶正式落地部署之前必须要进行全面测试,主要目的是发现任何潜在的故障或危险情况。仿真测试由于高效和低成本的优势,是自动驾驶测试的主要内容。仿真测试由众多场景构成,其被定义为在指定时间段内,测试车辆在仿真交通环境中与其他交通参与者相互作用以实现其驾驶意图的过程。其中,危险场景直接展示了自动驾驶的能力边界,因此在仿真测试中起着核心作用。由于现实世界中安全关键事件的罕见性,仅依靠现实世界的数据库来收集它们是不够的。因此,为自动驾驶测试生成有效的危险场景是一个重要的研究方向。
2、目前,研究人员已经将各种原理和方法应用于场景生成。其中,基于深度强化学习的在线场景生成方法由于能够根据被测试对象的反馈实时改变场景状态,具有更高挑战性的优势,成为了主要研究方向。在此领域下,研究人员对场景建模、奖励设置、事件概率、多车辆场景和训练收敛等方面进行了深入的研究。
3、尽管已在
...【技术保护点】
1.一种基于对抗奖励训练的自动驾驶危险场景生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自动驾驶危险场景生成方法,其特征在于,在所述仿真环境中建立坐标系包括:
3.根据权利要求2所述的自动驾驶危险场景生成方法,其特征在于,基于所述目标车和所述挑战车的预计碰撞时间,引入奖励函数激励所述挑战车辆执行危险测试行为包括:
4.根据权利要求1所述的自动驾驶危险场景生成方法,其特征在于,基于所述车辆数据中的场景状态参数,随机生成惩罚动作,通过动作网络转化将所述惩罚动作转换为动作参数,将所述场景状态参数、所述惩罚动作及对应的所述动
...【技术特征摘要】
1.一种基于对抗奖励训练的自动驾驶危险场景生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的自动驾驶危险场景生成方法,其特征在于,在所述仿真环境中建立坐标系包括:
3.根据权利要求2所述的自动驾驶危险场景生成方法,其特征在于,基于所述目标车和所述挑战车的预计碰撞时间,引入奖励函数激励所述挑战车辆执行危险测试行为包括:
4.根据权利要求1所述的自动驾驶危险场景生成方法,其特征在于,基于所述车辆数据中的场景状态参数,随机生成惩罚动作,通过动作网络转化将所述惩罚动作转换为动作参数,将所述场景状态参数、所述惩罚动作及对应的所述动作参数组成状态动作对,输入到预训练强化学习模型中,在无历史动作相似性惩罚的条件下,计算所述状态...
【专利技术属性】
技术研发人员:王亚飞,章翼辰,郑泽州,李泽星,李若尧,汪博文,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。