当前位置: 首页 > 专利查询>清华大学专利>正文

考虑不确定性的自动驾驶强化学习运动规划方法和系统技术方案

技术编号:37604915 阅读:40 留言:0更新日期:2023-05-18 11:56
本发明专利技术涉及一种考虑不确定性的自动驾驶强化学习运动规划方法和系统,包括以下步骤:基于获取的历史驾驶数据,使用深度强化学习方法对预先构建的多头值函数网络进行训练;获取当前时刻的环境状态信息,并分别利用训练得到的多头值函数网络和自动驾驶车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹,比较后得到自动驾驶车辆的最优运动轨迹。通过结合自举式不确定性估计,考虑了强化学习算法在计算过程中可能由于其黑箱特性导致的不确定性,通过基于规则的方法避免了这种不确定性可能造成的危险决策,有助于提升该类方法在智能车辆中使用的安全性和可靠性。因此,本发明专利技术可以广泛应用于智能车辆领域。本发明专利技术可以广泛应用于智能车辆领域。本发明专利技术可以广泛应用于智能车辆领域。

【技术实现步骤摘要】
考虑不确定性的自动驾驶强化学习运动规划方法和系统


[0001]本专利技术属于智能车辆领域,具体涉及一种考虑不确定性的自动驾驶强化学习运动规划方法和系统。

技术介绍

[0002]近年来,人工智能技术在智能交通和车辆领域逐渐开始商业化应用,智能网联车辆逐渐走入人们的视野。一般来说,智能车辆的自动驾驶系统可以分为感知、定位、决策和控制四个模块。其在,运动规划是自动驾驶系统的决策模块中最为关键的部分之一,其规划的结果对车辆最终驾驶决策结果有着直接的影响。
[0003]现有的运动规划方法可以大致分为基于规则的方法和基于学习的方法。基于学习的方法,特别是基于强化学习的方法可以从大量驾驶数据中自主的学习最优决策策略,从而有望将无人驾驶决策的能力提升至超越现有人工设计方法的水平。但这类方法一般基于深度神经网络,存在黑箱特性,其风险难以估计,这给无人驾驶安全带来了巨大的挑战。

技术实现思路

[0004]针对上述问题,本专利技术的目的是提供一种考虑不确定性的自动驾驶强化学习运动规划方法和系统,通过结合自举式不确定性估计,考虑了强化学习算法在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种考虑不确定性的自动驾驶强化学习运动规划方法,其特征在于,包括以下步骤:基于获取的历史驾驶数据,使用深度强化学习方法对预先构建的多头值函数网络进行训练;获取当前时刻的环境状态信息,并分别利用训练得到的多头值函数网络和待规划车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹,比较后得到待规划车辆的最优运动轨迹。2.如权利要求1所述的一种考虑不确定性的自动驾驶强化学习运动规划方法,其特征在于,所述基于获取的历史驾驶数据,使用深度强化学习方法对预先构建的多头值函数网络进行训练,包括:构建多头值函数网络并进行随机初始化;采集驾驶数据;对采集的驾驶数据进行自举式的采样,并基于采样数据,使用深度强化学习方法对多头值函数网络中的各子神经网络分别训练。3.如权利要求2所述的一种考虑不确定性的自动驾驶强化学习运动规划方法,其特征在于,所述多头值函数网络包括多个并行的子神经网络,各所述子神经网络的输入为当前环境状态s及期望决策动作a,输出为该环境状态

期望决策动作对应的决策值Q(s,a)。4.如权利要求2所述的一种考虑不确定性的自动驾驶强化学习运动规划方法,其特征在于,所述获取当前时刻的环境状态信息,并分别利用训练得到的多头值函数网络和待规划车辆的自动驾驶系统得到基于数据拟合的运动轨迹和基于规则的运动轨迹,比较后得到待规划车辆的最优运动轨迹,包括:获取当前时刻的环境状态信息;基于当前时刻的环境状态信息,利用待规划车辆本身的自动驾驶系统获取全局轨迹规划结果,并基于代价函数计算得到基于规则的运动轨迹;基于当前时刻的环境状态信息,利用多头值函数网络,计算得到基于数据拟合的运动轨迹;基于自举不确定性计算,从基于规则的运动轨迹与基于数据拟合的运动轨迹中确定最优运动轨迹并输出。5.如权利要求4所述的一种考虑不确定性的自动驾驶强化学习运动规划方法,其特征在于,所述基于当前时刻的环境状态信息,利用待规划车辆本身的自动驾驶系统获取全局轨迹规划结果,并基于代价函数计算得到基于规则的运动轨迹,包括:基于当前时刻的环境状态信息,根据自动驾驶的全局轨迹规划结果,生成运动规划的m条候选轨迹a1,a2,a3,...a
m
;在每个规划循环中,利用代价函数,从候选轨迹中选取代价值最小的轨迹作为基于规则的运动轨迹a
r
。6.如权利要求5所述的一种考虑不确定性的自动驾驶强化学习运动规划方法,其特征在于,所述基于当前时刻的环境状态信息,利用训练好的多头值函数网络,计算得到基于数据拟合的运动轨迹,包括:S231、将当前环境状态信息s和基于规则的运动轨迹a
r
作为多头值函数网络的输入,得到基于规则的运动轨迹a
r...

【专利技术属性】
技术研发人员:杨殿阁江昆周伟韬曹重邓楠山刘小钰
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1