【技术实现步骤摘要】
本专利技术属于自动驾驶,具体涉及一种基于有限状态机的自动驾驶决策方法。
技术介绍
1、深度强化学习(drl)融合了深度神经网络的表征能力和强化学习的决策推理能力,广泛应用于自动驾驶汽车的驾驶决策任务。在现实的驾驶场景中,智能体需要在快速变化的交通情境中做出决策,例如超车、躲避障碍物等。然而,在密集交通中,传统的drl方法受到稀疏奖励问题的影响,使得智能体难以掌握复杂的交通决策策略。稀疏奖励限制了强化学习的学习效率,使得智能体难以快速获得正向反馈来引导策略的优化。
2、自动驾驶汽车在密集交通中的决策需要兼顾安全性、效率和舒适性,这使得奖励函数的设计变得复杂而困难。而传统的奖励设计方法无法充分引导智能体学习高质量的驾驶策略。在现有的研究中,虽然多目标强化学习、reward shaping、inverse reinforcementlearning等方法在一定程度上解决了稀疏奖励问题,但仍存在着无法适应多样驾驶情景、难以处理多目标权衡等问题。
3、综上所述,亟需一种自动驾驶决策方法,可缓解稀疏奖励问题,同时可适应多样驾
...【技术保护点】
1.一种基于有限状态机的自动驾驶决策方法,其特征在于,包括:
2.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括:
3.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,马尔可夫决策过程的状态空间表示为:
4.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,变道的奖励函数为:
5.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,姿态调整的奖励函数为:
6.根据权利要求1
...【技术特征摘要】
1.一种基于有限状态机的自动驾驶决策方法,其特征在于,包括:
2.根据权利要求1所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,对三种驾驶子任务分别进行马尔可夫决策过程建模的过程包括:
3.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,马尔可夫决策过程的状态空间表示为:
4.根据权利要求2所述的一种基于有限状态机的自动驾驶决策方法,其特征在于,变道的奖励函数为:
5.根据权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。