【技术实现步骤摘要】
本专利技术涉及自动驾驶,尤其涉及一种智能汽车驾驶策略的高效深度强化学习方法。
技术介绍
1、自动驾驶技术的发展已经取得显著进展,但在高度复杂和多变的交通环境中,仍然面临挑战。目前,解决自动驾驶汽车决策问题的主要方法包括采用人工设计规则的有限状态机方法,数据驱动的模仿学习方法和与环境交互的强化学习方法。
2、人工设计规则简单,利用人类积累的先验知识易于实现但后期维护繁琐,当有新规则加入时要更新现有的状态机,同时检查规则间是否兼容,新的决策场景会不断扩大和更新现有的这个有限状态机,但对于无限多的城市交通场景中的自动驾驶决策,有限状态机的方法场景的覆盖度和适应性有限。
3、数据驱动的模仿学习是一种通过观察专家示范行为并学习其决策策略的方法,其特点是需要采集大量的实验数据,这种决策系统利用神经网络强大的拟合能力,可以具有一定的泛化性,在训练过程中依赖于标记的专家数据。由于过度依赖专家数据,模仿学习可能无法很好地泛化到未见过的场景,且对专家数据的质量和多样性要求较高,测试数据与训练数据分布存在偏差时,数据驱动的决策方法性能
...【技术保护点】
1.一种智能汽车驾驶策略的高效深度强化学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述通过智能体在所述交通仿真环境中完成驾驶任务,获取所述复杂交通环境下对应的驾驶探索状态和驾驶探索动作,包括:
3.根据权利要求2所述的方法,其特征在于,所述策略πθ的损失函数表示为:
4.根据权利要求3所述的方法,其特征在于,所述Q值网络的损失函数表示为:
5.根据权利要求4所述的方法,其特征在于,所述策略网络的总损失函数表示为:
6.根据权利要求1所述的方法,其特征在于,还包括:
7.
...【技术特征摘要】
1.一种智能汽车驾驶策略的高效深度强化学习方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述通过智能体在所述交通仿真环境中完成驾驶任务,获取所述复杂交通环境下对应的驾驶探索状态和驾驶探索动作,包括:
3.根据权利要求2所述的方法,其特征在于,所述策略πθ的损失函数...
【专利技术属性】
技术研发人员:刘佳,尹健文,梁青怡,蒋拯民,寇雨然,徐坤,李慧云,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。