一种基于有限状态机的自动驾驶决策方法技术

技术编号:40070527 阅读:46 留言:0更新日期:2024-01-17 00:06
本发明专利技术属于自动驾驶技术领域,具体涉及一种基于有限状态机的自动驾驶决策方法;该方法包括:将密集交通场景下的驾驶任务分解为三种驾驶子任务,包括变道、保持和姿态调整;对三种驾驶子任务分别进行马尔可夫建模;使用DQN算法求解马尔可夫决策过程,得到三种驾驶子任务的驾驶动作策略;根据驾驶过程中的任务切换过程构建有限状态机模型;根据有限状态机模型和驾驶动作策略得到驾驶决策并执行;本发明专利技术可解决DRL在自动驾驶决策任务中存在的稀疏回报问题,提高自动驾驶车在多样化驾驶环境中的适应能力,从而增强自动驾驶的可靠性和安全性。

【技术实现步骤摘要】

本专利技术属于自动驾驶,具体涉及一种基于有限状态机的自动驾驶决策方法


技术介绍

1、深度强化学习(drl)融合了深度神经网络的表征能力和强化学习的决策推理能力,广泛应用于自动驾驶汽车的驾驶决策任务。在现实的驾驶场景中,智能体需要在快速变化的交通情境中做出决策,例如超车、躲避障碍物等。然而,在密集交通中,传统的drl方法受到稀疏奖励问题的影响,使得智能体难以掌握复杂的交通决策策略。稀疏奖励限制了强化学习的学习效率,使得智能体难以快速获得正向反馈来引导策略的优化。

2、自动驾驶汽车在密集交通中的决策需要兼顾安全性、效率和舒适性,这使得奖励函数的设计变得复杂而困难。而传统的奖励设计方法无法充分引导智能体学习高质量的驾驶策略。在现有的研究中,虽然多目标强化学习、reward shaping、inverse reinforcementlearning等方法在一定程度上解决了稀疏奖励问题,但仍存在着无法适应多样驾驶情景、难以处理多目标权衡等问题。

3、综上所述,亟需一种自动驾驶决策方法,可缓解稀疏奖励问题,同时可适应多样驾驶情景,可在复杂动态本文档来自技高网...

【技术保护点】

1.一种基于有限状态机的自动驾驶决策方法,其特征在于,包括:

2.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括:

3.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,马尔可夫决策过程的状态空间表示为:

4.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,变道的奖励函数为:

5.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,姿态调整的奖励函数为:

6.根据权利要求1所述的一种基于有限状...

【技术特征摘要】

1.一种基于有限状态机的自动驾驶决策方法,其特征在于,包括:

2.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括:

3.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,马尔可夫决策过程的状态空间表示为:

4.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,变道的奖励函数为:

5.根据权利要...

【专利技术属性】
技术研发人员:于洪刘志成王烨钟福金
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1