当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于学习采样式的汽车自动驾驶运动规划方法及系统技术方案

技术编号:24887837 阅读:92 留言:0更新日期:2020-07-14 18:15
本发明专利技术涉及一种基于学习采样式的汽车自动驾驶运动规划方法及系统,其包括:建立车辆运动学模型;初始化Open表和Closed表;计算每条前向仿真轨迹的评价值,选取评价值最高的轨迹作为规则最优轨迹;对前向仿真轨迹进行Q值函数估计,选择Q值最大的轨迹作为强化学习轨迹;从规则最优轨迹和强化学习轨迹中选取初段最优轨迹,并存入Closed表中;利用碰撞检测方法筛选不碰撞前向仿真轨迹,将不碰撞的前向仿真轨迹存入Open表中;计算每条前向仿真轨迹的评价值,选取评价值最高的前向仿真轨迹作为候选最优轨迹,并存入Closed表中;候选最优轨迹终点在运动规划所需求的终点范围内时结束运动规划过程;将Closed表格中的初段最优轨迹和候选最优轨迹连接,形成最终规划轨迹。

【技术实现步骤摘要】
一种基于学习采样式的汽车自动驾驶运动规划方法及系统
本专利技术涉及一种智能车辆领域,特别是关于一种基于学习采样式的汽车自动驾驶运动规划方法及系统。
技术介绍
近年来,人工智能技术在智能交通和车辆领域逐渐开始商业化应用,智能网联车辆逐渐走入人们的视野。一般来说,智能车辆的自动驾驶软件系统可以分为感知、定位、决策和控制四个模块。运动规划作为决策模块中最为重要的部分,决定了智能车辆的决策质量。由于控制模块一般只完成运动/轨迹跟踪的工作,所以运动规划的结果对车辆最终驾驶行为的影响至关重要。现有的运动规划方法可以大致分为基于采样的方法、基于优化的方法和基于端到端学习的方法。基于端到端学习的方法建立直接从传感器数据到驾驶动作的映射,但由于学习方法的黑箱特性,难以进行工程实践及优化;基于优化的方法一般依赖车道线或其他先验的道路信息,求解时间往往难以得到保证;基于采样的方法由于其求解速度快,能够适应多种环境特性的特点,在自动驾驶的运动规划中得到广泛采用。基于采样的方法一般通过代价函数进行采样轨迹或运动状态的选取,这种方式本质上是基于人为设定的规本文档来自技高网...

【技术保护点】
1.一种基于学习采样式的汽车自动驾驶运动规划方法,其特征在于包括以下步骤:/nS1:根据车辆参数建立车辆运动学模型;/nS2:初始化启发式运动规划方法的存储表格:Open表和Closed表;/nS3:基于学习采样式方法,从起点生成一系列前向仿真轨迹,并通过启发式函数,计算每条前向仿真轨迹的评价值,选取评价值最高的轨迹作为规则最优轨迹;利用强化学习方法对前向仿真轨迹进行Q值函数估计,选择Q值最大的轨迹作为强化学习轨迹;从规则最优轨迹和强化学习轨迹中选取初段最优轨迹,将初段最优轨迹存入Closed表中,并由初段最优轨迹终点作为随后规划的起点;/nS4:基于启发式规划方法,从规划起点开始,生成一系列...

【技术特征摘要】
1.一种基于学习采样式的汽车自动驾驶运动规划方法,其特征在于包括以下步骤:
S1:根据车辆参数建立车辆运动学模型;
S2:初始化启发式运动规划方法的存储表格:Open表和Closed表;
S3:基于学习采样式方法,从起点生成一系列前向仿真轨迹,并通过启发式函数,计算每条前向仿真轨迹的评价值,选取评价值最高的轨迹作为规则最优轨迹;利用强化学习方法对前向仿真轨迹进行Q值函数估计,选择Q值最大的轨迹作为强化学习轨迹;从规则最优轨迹和强化学习轨迹中选取初段最优轨迹,将初段最优轨迹存入Closed表中,并由初段最优轨迹终点作为随后规划的起点;
S4:基于启发式规划方法,从规划起点开始,生成一系列前向仿真轨迹;利用碰撞检测方法筛选不碰撞前向仿真轨迹,并将这些不碰撞的前向仿真轨迹存入Open表中;通过启发式函数,计算每条前向仿真轨迹的评价值,选取评价值最高的前向仿真轨迹作为候选最优轨迹,并将候选最优轨迹及其评价值存入Closed表中,并由候选最优轨迹终点作为随后规划起点;
S5:重复步骤S4,直至步骤S4中的候选最优轨迹终点在运动规划所需求的终点范围内时,结束运动规划过程;
S6:将Closed表格中的初段最优轨迹和候选最优轨迹连接,形成最终规划轨迹。


2.如权利要求1所述汽车自动驾驶运动规划方法,其特征在于:所述步骤S3中,前向仿真轨迹是利用车辆方向盘转角加速度、油门/刹车输入生成。


3.如权利要求2所述汽车自动驾驶运动规划方法,其特征在于:所述前向仿真轨迹生成方法为:根据使用场景确定仿真步长Δt,通过车辆运动学模型求解得到实现车辆位置x、y和车辆方向θ的更新,不断迭代,实现车辆轨迹的更新,最终得到前向仿真轨迹。


4.如权利要求1所述汽车自动驾驶运动规划方法,其特征在于:所述步骤S3中,在将前向仿真轨迹存入Open表格之前,首先对前向仿真轨迹进行碰撞检测,检测生成的前向仿真轨迹与感知结果中障碍物的边界是否产生碰撞,如果轨迹发生碰撞,则直接删除,不碰撞的轨迹存入Open表中。


5.如权利要求1所述汽车自动驾驶运动规划方法,其特征在于:所述步骤S3中,基于强化学习方法选取强化学习轨迹,强化学习方法具体为基于Q学习算法的强化学习。


6.如权利要求5所述汽车自动驾驶运动规划方法,其特征在于:所述基于强化学习方法的强化学习轨迹选取方法包括以下步骤:
S31、初始化强化学习算法:确定状态空间、动作空间和奖励函数R;
S32、建立Q网络,Q网络中存储了不同状态下,采取不同动作所获得的期望奖励,该奖励称作Q值,在离线训练开始前随机初始化Q网络中的Q值参数:Q(st,at),其中,st为t时刻状态,at为t时刻的动作;
S33、从当前t时刻状态st开始,利用不同的动作at生成轨迹,该动作包括下一时刻车辆的方向盘转加速度γ和纵向加速度a;通过当前时刻t方向盘转角和θt,计算下一时刻t+Δt期望的方向盘转角和θt+Δt=θt+γ×Δt,将期望的方向盘转角和纵向加速度输入车辆模型中,生成轨迹,将此时的Q值:Q(st,at)作为所生成轨迹的Q值,将当前状态下,Q值最大的动作所生成的轨迹作为强化学习轨迹。


7.如权利要求6所述汽车自动驾驶运动规划方法,其特征在于:所述初段最优轨迹的选取方法为:
通过向车辆动力学模型输入不同的方向...

【专利技术属性】
技术研发人员:江昆周伟韬杨殿阁严瑞东黄晋
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1