【技术实现步骤摘要】
本领域涉及车辆驾驶决策,尤其是涉及一种知识增强的强化学习车辆决策控制方法及系统。
技术介绍
1、随着传感器技术和深度学习的发展,自动驾驶相关研究取得了重大进步。行为决策是自动驾驶车辆需要实现的基本功能之一。其基本目的是在确保乘客和其他道路使用者安全的前提下,选择最优的驾驶操作,以实现高效、安全和舒适的驾驶体验。然而面对复杂动态交互场景,需要综合考虑复杂动态交互场景中的交通参与者驾驶行为、道路边界约束等多个因素,对车辆决策控制水平提出了较高要求。
2、传统的决策方法主要是基于规则的方法,将车辆的运动行为进行划分,根据任务路线、交通环境、交通法规、驾驶规则知识库等建立行为规则库,对不同的环境状态进行行为决策逻辑推理,输出驾驶行为,并接收运动规划层对控制执行情况的反馈进行实时动态调整。然而,面对复杂不确定环境,基于规则的方法难以适应所有情况。
3、基于深度强化学习的方法能够通过被控车辆学习过程中不断与环境进行交互产生数据来更新模型自身参数,能够更好地应对复杂多变的驾驶环境。然而被控车辆需要探索大量的动作来最大化累积奖励
...【技术保护点】
1.一种知识增强的强化学习车辆决策控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,专家驾驶策略的生成过程为:预先收集小批量人类驾驶数据,根据行为克隆和不确定性估计方法生成专家驾驶策略。
3.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,新专家驾驶策略的生成过程为:在车辆运行过程中搜集符合预设条件的优秀案例,当优秀案例达到一定数量后,根据行为克隆和不确定性估计方法生成新专家驾驶策略。
4.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在
...【技术特征摘要】
1.一种知识增强的强化学习车辆决策控制方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,专家驾驶策略的生成过程为:预先收集小批量人类驾驶数据,根据行为克隆和不确定性估计方法生成专家驾驶策略。
3.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,新专家驾驶策略的生成过程为:在车辆运行过程中搜集符合预设条件的优秀案例,当优秀案例达到一定数量后,根据行为克隆和不确定性估计方法生成新专家驾驶策略。
4.根据权利要求1所述的知识增强的强化学习车辆决策控制方法,其特征在于,具体将专家驾驶策略分布和强化学习策略网络中的学习策略分布通过kl散度进行约束限制,并将其纳入强化学习策略网络的损失函数,生成基于专家驾驶策略分布约束的损失函数。
5.根据权利要求1所述的知识增强的...
【专利技术属性】
技术研发人员:尹智帅,张书霖,曾俊源,聂琳真,黎谦,
申请(专利权)人:武汉理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。