智能汽车驾驶策略的高效深度强化学习方法技术

技术编号:40245722 阅读:23 留言:0更新日期:2024-02-02 22:42
本发明专利技术提供了一种智能汽车驾驶策略的高效深度强化学习方法,包括:对交通仿真环境、策略网络参数、Q值网络参数及数据缓冲区进行初始化处理;基于安全驾驶策略在交通仿真环境中完成驾驶任务,获取复杂交通环境下安全驾驶对应的驾驶演示状态和驾驶演示动作;将驾驶演示状态和驾驶演示动作存储至演示数据缓冲区;通过智能体在交通仿真环境中完成驾驶任务,获取复杂交通环境下对应的驾驶探索状态和驾驶探索动作;将驾驶探索状态和驾驶探索动作存储至探索数据缓冲区;基于采样比例对演示数据缓冲区及探索数据缓冲区中的数据进行采样,得到采样数据;基于采样数据对策略网络参数及Q值网络参数进行更新。本发明专利技术的方法提高了驾驶策略的稳定性及安全性。

【技术实现步骤摘要】

本专利技术涉及自动驾驶,尤其涉及一种智能汽车驾驶策略的高效深度强化学习方法


技术介绍

1、自动驾驶技术的发展已经取得显著进展,但在高度复杂和多变的交通环境中,仍然面临挑战。目前,解决自动驾驶汽车决策问题的主要方法包括采用人工设计规则的有限状态机方法,数据驱动的模仿学习方法和与环境交互的强化学习方法。

2、人工设计规则简单,利用人类积累的先验知识易于实现但后期维护繁琐,当有新规则加入时要更新现有的状态机,同时检查规则间是否兼容,新的决策场景会不断扩大和更新现有的这个有限状态机,但对于无限多的城市交通场景中的自动驾驶决策,有限状态机的方法场景的覆盖度和适应性有限。

3、数据驱动的模仿学习是一种通过观察专家示范行为并学习其决策策略的方法,其特点是需要采集大量的实验数据,这种决策系统利用神经网络强大的拟合能力,可以具有一定的泛化性,在训练过程中依赖于标记的专家数据。由于过度依赖专家数据,模仿学习可能无法很好地泛化到未见过的场景,且对专家数据的质量和多样性要求较高,测试数据与训练数据分布存在偏差时,数据驱动的决策方法性能会衰退。这些方法都局本文档来自技高网...

【技术保护点】

1.一种智能汽车驾驶策略的高效深度强化学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述通过智能体在所述交通仿真环境中完成驾驶任务,获取所述复杂交通环境下对应的驾驶探索状态和驾驶探索动作,包括:

3.根据权利要求2所述的方法,其特征在于,所述策略πθ的损失函数表示为:

4.根据权利要求3所述的方法,其特征在于,所述Q值网络的损失函数表示为:

5.根据权利要求4所述的方法,其特征在于,所述策略网络的总损失函数表示为:

6.根据权利要求1所述的方法,其特征在于,还包括:

7.根据权利要求1所述的...

【技术特征摘要】

1.一种智能汽车驾驶策略的高效深度强化学习方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述通过智能体在所述交通仿真环境中完成驾驶任务,获取所述复杂交通环境下对应的驾驶探索状态和驾驶探索动作,包括:

3.根据权利要求2所述的方法,其特征在于,所述策略πθ的损失函数...

【专利技术属性】
技术研发人员:刘佳尹健文梁青怡蒋拯民寇雨然徐坤李慧云
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1