知识增强的强化学习车辆决策控制方法及系统技术方案

技术编号:43326727 阅读:25 留言:0更新日期:2024-11-15 20:25
本发明专利技术公开了一种知识增强的强化学习车辆决策控制方法及方法,其中方法包括步骤:获取连续三帧的场景鸟瞰图;将获取的场景鸟瞰图输入预设构建的强化学习模型,通过该强化学习模型输出车辆加速度和横摆角速度,其中在强化学习策略网络中引入基于专家驾驶策略分布约束的损失函数,以使该强化学习模型的输出更贴近专家驾驶策略;且定期将新专家驾驶策略与当前专家驾驶策略通过高斯混合概率模型进行集成,生成新的专家驾驶策略;根据车辆加速度和横摆角速度生成控制指令,以使车辆根据该控制指令行驶。本发明专利技术可提升决策控制的安全性和可靠性。

【技术实现步骤摘要】

本领域涉及车辆驾驶决策,尤其是涉及一种知识增强的强化学习车辆决策控制方法及系统


技术介绍

1、随着传感器技术和深度学习的发展,自动驾驶相关研究取得了重大进步。行为决策是自动驾驶车辆需要实现的基本功能之一。其基本目的是在确保乘客和其他道路使用者安全的前提下,选择最优的驾驶操作,以实现高效、安全和舒适的驾驶体验。然而面对复杂动态交互场景,需要综合考虑复杂动态交互场景中的交通参与者驾驶行为、道路边界约束等多个因素,对车辆决策控制水平提出了较高要求。

2、传统的决策方法主要是基于规则的方法,将车辆的运动行为进行划分,根据任务路线、交通环境、交通法规、驾驶规则知识库等建立行为规则库,对不同的环境状态进行行为决策逻辑推理,输出驾驶行为,并接收运动规划层对控制执行情况的反馈进行实时动态调整。然而,面对复杂不确定环境,基于规则的方法难以适应所有情况。

3、基于深度强化学习的方法能够通过被控车辆学习过程中不断与环境进行交互产生数据来更新模型自身参数,能够更好地应对复杂多变的驾驶环境。然而被控车辆需要探索大量的动作来最大化累积奖励,才能获得有效的驾驶本文档来自技高网...

【技术保护点】

1.一种知识增强的强化学习车辆决策控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,专家驾驶策略的生成过程为:预先收集小批量人类驾驶数据,根据行为克隆和不确定性估计方法生成专家驾驶策略。

3.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,新专家驾驶策略的生成过程为:在车辆运行过程中搜集符合预设条件的优秀案例,当优秀案例达到一定数量后,根据行为克隆和不确定性估计方法生成新专家驾驶策略。

4.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,具体将专家驾驶策...

【技术特征摘要】

1.一种知识增强的强化学习车辆决策控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,专家驾驶策略的生成过程为:预先收集小批量人类驾驶数据,根据行为克隆和不确定性估计方法生成专家驾驶策略。

3.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,新专家驾驶策略的生成过程为:在车辆运行过程中搜集符合预设条件的优秀案例,当优秀案例达到一定数量后,根据行为克隆和不确定性估计方法生成新专家驾驶策略。

4.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,具体将专家驾驶策略分布和强化学习策略网络中的学习策略分布通过kl散度进行约束限制,并将其纳入强化学习策略网络的损失函数,生成基于专家驾驶策略分布约束的损失函数。

5.根据权利要求1所述的知识增强的...

【专利技术属性】
技术研发人员:尹智帅张书霖曾俊源聂琳真黎谦
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1