用于确定自动驾驶中的驾驶动作的系统和方法技术方案

技术编号:24887801 阅读:17 留言:0更新日期:2020-07-14 18:15
本申请涉及一种用于确定自动驾驶中的驾驶动作的系统和方法。所述系统可以获取与车辆相关的驾驶信息;确定所述车辆的状态;基于所述驾驶信息和所述车辆的所述状态,通过使用训练的驾驶动作模型,确定一个或以上候选驾驶动作和对应于所述一个或以上候选驾驶动作的一个或以上评估值;基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择目标驾驶动作;基于所述目标驾驶动作确定目标驾驶路径;以及将信号发送至所述车辆的控制组件,以指示所述车辆执行所述目标驾驶动作以遵循所述目标驾驶路径。

【技术实现步骤摘要】
用于确定自动驾驶中的驾驶动作的系统和方法
本申请一般涉及用于自动驾驶的系统和方法,尤其涉及用于确定自动驾驶中的驾驶动作的系统和方法。
技术介绍
随着微电子技术和机器人技术的发展,自动驾驶的探索现已迅速发展。对于自动驾驶系统来说,基于与自动驾驶系统的车辆相关的驾驶信息(例如,起始位置、定义的目的地、道路状况)确定合适的驾驶动作(例如,“向左转”、“向右转”、“停止”)是很重要的。此后并且相应地,自动驾驶系统将基于驾驶动作规划合适的驾驶路径。通常,自动驾驶系统根据人为定义的规则确定驾驶动作。然而,在某些情况下,人为定义的规则可能不充分、不准确或不适合,因此难以确定最优驾驶动作或最优驾驶路径。因此,希望提供用于准确和有效地确定驾驶动作的方法和系统,从而改善自动驾驶系统的性能。
技术实现思路
本申请的一方面涉及一种用于确定自动驾驶中驾驶动作的系统,包括:获取模块、状态确定模块、候选驾驶动作确定模块、目标驾驶动作确定模块、目标驾驶路径确定模块以及传输模块。获取模块用于获取与车辆相关的驾驶信息;状态确定模块用于确定所述车辆的状态;候选驾驶动作确定模块用于基于所述驾驶信息和所述车辆的所述状态,通过使用训练的驾驶动作模型,确定一个或以上候选驾驶动作和对应于所述一个或以上候选驾驶动作的一个或以上评估值;目标驾驶动作确定模块用于基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择目标驾驶动作;目标驾驶路径确定模块用于基于据所述目标驾驶动作确定目标驾驶路径;以及传输模块用于将信号发送至所述车辆的控制组件,以指示所述车辆执行所述目标驾驶动作以遵循所述目标驾驶路径。本申请的另一方面涉及一种用于确定自动驾驶中驾驶动作的系统,包括:至少一个包括一组指令的存储介质;以及至少一个处理器与所述至少一个存储介质通信。当执行该组指令时,所述至少一个处理器用于使所述系统:获取与车辆相关的驾驶信息;确定所述车辆的状态;基于所述驾驶信息和所述车辆的所述状态,通过使用训练的驾驶动作模型,确定一个或以上候选驾驶动作和对应于所述一个或以上候选驾驶动作的一个或以上评估值;基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择目标驾驶动作;基于据所述目标驾驶动作确定目标驾驶路径;以及将信号发送至所述车辆的控制组件,以指示所述车辆执行所述目标驾驶动作以遵循所述目标驾驶路径。在一些实施例中,所述与车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和/或所述车辆所述第一预定范围内的地图信息。在一些实施例中,所述感知信息包括道路信息和/或障碍物信息。在一些实施例中,所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和/或所述车辆的方向盘的角度。在一些实施例中,所述训练的驾驶动作模型由训练过程确定。训练过程包括:获取初始驾驶动作模型;获取初始样本驾驶信息,所述初始样本驾驶信息包括样本车辆第二预定范围内的初始样本感知信息和所述样本车辆所述第二预定范围内的初始样本地图信息;获取所述样本车辆的初始样本状态;基于所述初始样本驾驶信息、所述样本车辆的所述初始样本状态以及所述初始驾驶动作模型,确定初始样本驾驶动作;基于对应于所述初始样本驾驶动作的初始奖励值,确定与所述初始驾驶动作模型相关的初始样本评估值,其特征在于,所述初始奖励值与与所述初始样本驾驶动作相关的初始样本驾驶路径与障碍物之间的距离相关;确定所述初始样本评估值是否满足预设条件;以及响应于确定所述初始样本评估值满足所述预设条件,指定所述初始驾驶动作模型作为所述训练的驾驶动作模型。在一些实施例中,所述训练过程进一步包括:响应于确定所述初始样本评估值不满足所述预设条件,执行一个或以上迭代以更新所述初始驾驶动作模型,直到更新的样本评估值满足所述预设条件,其特征在于,所述一个或以上迭代中的每一个包括:基于先前迭代中的奖励值确定更新的驾驶动作模型;获取更新的样本驾驶信息;基于所述先前迭代中的样本驾驶动作和所述先前迭代中的所述样本车辆的样本状态,估计所述样本车辆的更新的样本状态;基于所述更新的样本驾驶信息、所述样本车辆的所述更新的样本状态以及所述更新的驾驶动作模型,确定更新的样本驾驶动作;基于对应于所述更新的样本驾驶动作的更新的奖励值和所述先前迭代中的样本评估值,确定与所述更新的驾驶动作模型相关的更新的样本评估值;以及确定所述更新的样本评估值是否满足所述预设条件。在一些实施例中,所述训练的驾驶动作模型包括Q-学习神经网络模型。在一些实施例中,所述系统进一步根据预定规则,基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择所述目标驾驶动作。本申请的又一方面涉及一种确定自动驾驶中驾驶动作的方法,所述方法包括:获取与车辆相关的驾驶信息;确定所述车辆的状态;基于所述驾驶信息和所述车辆的所述状态,通过使用训练的驾驶动作模型,确定一个或以上候选驾驶动作和对应于所述一个或以上候选驾驶动作的一个或以上评估值;基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择目标驾驶动作;基于所述目标驾驶动作确定目标驾驶路径;以及将信号发送至所述车辆的控制组件,以指示所述车辆执行所述目标驾驶动作以遵循所述目标驾驶路径。在一些实施例中,所述与车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和/或所述车辆所述第一预定范围内的地图信息。在一些实施例中,所述感知信息包括道路信息和/或障碍物信息。在一些实施例中,所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和/或所述车辆的方向盘的角度。在一些实施例中,所述训练的驾驶动作模型由训练过程确定,所述训练过程包括:获取初始驾驶动作模型;获取初始样本驾驶信息,所述初始样本驾驶信息包括样本车辆第二预定范围内的初始样本感知信息和所述样本车辆所述第二预定范围内的初始样本地图信息;获取所述样本车辆的初始样本状态;基于所述初始样本驾驶信息、所述样本车辆的所述初始样本状态以及所述初始驾驶动作模型,确定初始样本驾驶动作;基于对应于所述初始样本驾驶动作的初始奖励值,确定与所述初始驾驶动作模型相关的初始样本评估值,其特征在于,所述初始奖励值与与所述初始样本驾驶动作相关的初始样本驾驶路径与障碍物之间的距离相关;确定所述初始样本评估值是否满足预设条件;以及响应于确定所述初始样本评估值满足所述预设条件,指定所述初始驾驶动作模型为所述训练的驾驶动作模型。在一些实施例中,所述训练过程进一步包括:响应于确定所述初始样本评估值不满足所述预设条件,执行一个或以上迭代以更新所述初始驾驶动作模型,直到更新的样本评估值满足所述预设条件,其中所述一个或以上迭代中的每一个包括:基于先前迭代中的奖励值确定更新的驾驶动作模型;获取更新的样本驾驶信息;基于所述先前迭代中的样本驾驶动作和所述先前迭代中的所述样本车辆的样本状态,估计所述样本车辆的更新的样本状态;基于所述更新的样本驾驶信息、所述样本车辆的所述更新的样本状态以及所述更新的驾驶动作模型,确定更新的样本驾驶动作;基于对应于所述更新的样本驾驶动作的更新的奖励值和所述先前迭代中的样本评估值,确定本文档来自技高网...

【技术保护点】
1.一种用于确定自动驾驶中驾驶动作的系统,包括:/n获取模块,用于获取与车辆相关的驾驶信息;/n状态确定模块,用于确定所述车辆的状态;/n候选驾驶动作确定模块,用于基于所述驾驶信息和所述车辆的所述状态,通过使用训练的驾驶动作模型,确定一个或以上候选驾驶动作和对应于所述一个或以上候选驾驶动作的一个或以上评估值;/n目标驾驶动作确定模块,用于基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择目标驾驶动作;/n目标驾驶路径确定模块,用于基于据所述目标驾驶动作确定目标驾驶路径;以及/n传输模块,用于将信号发送至所述车辆的控制组件,以指示所述车辆执行所述目标驾驶动作以遵循所述目标驾驶路径。/n

【技术特征摘要】
1.一种用于确定自动驾驶中驾驶动作的系统,包括:
获取模块,用于获取与车辆相关的驾驶信息;
状态确定模块,用于确定所述车辆的状态;
候选驾驶动作确定模块,用于基于所述驾驶信息和所述车辆的所述状态,通过使用训练的驾驶动作模型,确定一个或以上候选驾驶动作和对应于所述一个或以上候选驾驶动作的一个或以上评估值;
目标驾驶动作确定模块,用于基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择目标驾驶动作;
目标驾驶路径确定模块,用于基于据所述目标驾驶动作确定目标驾驶路径;以及
传输模块,用于将信号发送至所述车辆的控制组件,以指示所述车辆执行所述目标驾驶动作以遵循所述目标驾驶路径。


2.根据权利要求1所述的系统,其特征在于,所述与车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和所述车辆所述第一预定范围内的地图信息。


3.根据权利要求2所述的系统,其特征在于,所述感知信息包括道路信息和障碍物信息。


4.根据权利要求1所述的系统,其特征在于,所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度以及所述车辆的方向盘的角度。


5.根据权利要求1-4中任一项所述的系统,其特征在于,还包括训练模块,所述训练模块用于:
获取初始驾驶动作模型;
获取初始样本驾驶信息,所述初始样本驾驶信息包括样本车辆第二预定范围内的初始样本感知信息和所述样本车辆所述第二预定范围内的初始样本地图信息;
获取所述样本车辆的初始样本状态;
基于所述初始样本驾驶信息、所述样本车辆的所述初始样本状态以及所述初始驾驶动作模型,确定初始样本驾驶动作;
基于对应于所述初始样本驾驶动作的初始奖励值,确定与所述初始驾驶动作模型相关的初始样本评估值,其特征在于,所述初始奖励值与与所述初始样本驾驶动作相关的初始样本驾驶路径与障碍物之间的距离相关;
确定所述初始样本评估值是否满足预设条件;以及
响应于确定所述初始样本评估值满足所述预设条件,指定所述初始驾驶动作模型作为所述训练的驾驶动作模型。


6.根据权利要求5所述的系统,其特征在于,所述训练模块进一步用于:
响应于确定所述初始样本评估值不满足所述预设条件,执行一个或以上迭代以更新所述初始驾驶动作模型,直到更新的样本评估值满足所述预设条件,其特征在于,所述一个或以上迭代中的每一个包括:
基于先前迭代中的奖励值确定更新的驾驶动作模型;
获取更新的样本驾驶信息;
基于所述先前迭代中的样本驾驶动作和所述先前迭代中的所述样
本车辆的样本状态,估计所述样本车辆的更新的样本状态;
基于所述更新的样本驾驶信息、所述样本车辆的所述更新的样本状态以及所述更新的驾驶动作模型,确定更新的样本驾驶动作;
基于对应于所述更新的样本驾驶动作的更新的奖励值和所述先前
迭代中的样本评估值,确定与所述更新的驾驶动作模型相关的更新的样本评估值;以及
确定所述更新的样本评估值是否满足所述预设条件。


7.根据权利要求1所述的系统,其特征在于,所述训练的驾驶动作模型包括Q-学习神经网络模型。


8.根据权利要求1所述的系统,其特征在于,为了基于所述一个或以上评估值从所述一个或以上候选驾驶动作中选择所述目标驾驶动作,所述目标驾驶动作确定模块进一步用于:
根据预定规则,基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择所述目标驾驶动作。


9.一种确定自动驾驶中驾驶动作的方法,所述方法包括:
获取与车辆相关的驾驶信息;
确定所述车辆的状态;
基于所述驾驶信息和所述车辆的所述状态,通过使用训练的驾驶动作模型,确定一个或以上候选驾驶动作和对应于所述一个或以上候选驾驶动作的一个或以上评估值;
基于所述一个或以上评估值,从所述一个或以上候选驾驶动作中选择目标驾驶动作;
基于所述目标驾驶动作确定目标驾驶路径;以及
将信号发送至所述车辆的控制组件,以指示所述车辆执行所述目标驾驶动作以遵循所述目标驾驶路径。


10.根据权利要求9所述的方法,其特征在于,所述与车辆相关的驾驶信息包括所述车辆第一预定范围内的感知信息和所述车辆所述第一预定范围内的地图信息。


11.根据权利要求10所述的方法,其特征在于,所述感知信息包括道路信息和障碍物信息。


12.根据权利要求9所述的方法,其特征在于,所述车辆的所述状态包括所述车辆的速度、所述车辆的加速度和所述车辆的方向盘的角度。


13.根据权利要求9-12中任一项所述的方法,其特征在于,所述训练的驾驶动作模型由训练过程确定,所述训练过程包括:
获取初始驾驶动作模型;
获取初始样本驾驶信息,所述初始样本驾驶信息包括样本车辆第二预定范围内的初始样本感知信息和所述样本车辆所述第二预定范围内的初始样本地图信息;
获取所述样本车辆的初始样本状态;
基于所述初始样本驾驶信息、所述样本车辆的所述初始样本状态以及所述初始驾驶动作模型,确定初始样本驾驶动作;
基于对应于所述初始样本驾驶动作的初始奖励值,确定与所述初始驾驶动作模型相关的初始样本评估值,其特征在于,所述初始奖励值与与所述初始样本驾驶动作相关的初始样本驾驶路径与障碍物之间的距离相关;
确定所述初始样本评估值是否满足预设条件;以及
响应于确定所述初始样本评估值满足所述预设条件,指定所述初始驾驶动作模型为所述训练的驾驶动作模型。


14.根据权利要求13所述的方法,其特征在于,所述训练过程进一步包括:
响应于确定所述初始样本评估值不满足所述预设条件,执行一个或以上迭代以更新所述初始驾驶动作模型,直到更新的样本评估值满足所述预设条件,其中所述一个或以上迭代中的...

【专利技术属性】
技术研发人员:罗威
申请(专利权)人:北京航迹科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1