一种基于强化学习和规则确定驾驶策略的方法与设备技术

技术编号:17913219 阅读:27 留言:0更新日期:2018-05-10 18:44
本申请的目的是提供一种基于强化学习和规则融合确定驾驶策略的方法或设备;基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。与现有技术相比,本申请对通过强化学习算法计算确定的第一驾驶策略信息用规则进行约束,使得本申请的驾驶策略的确定方法与现有的采用规则算法实现车辆控制的方法、或采用强化学习算法实现车辆控制的方法相比更加智能,并且提高了最终确定的驾驶策略的合理性和稳定性。

【技术实现步骤摘要】
一种基于强化学习和规则确定驾驶策略的方法与设备
本申请涉及自动驾驶领域,尤其涉及一种基于强化学习和规则确定驾驶策略的技术。
技术介绍
在现有的车辆行驶过程中,对于车辆,特别是自动驾驶车辆的车辆控制主要通过以下几种方法实现:基于规则的自动驾驶技术,即采用规则算法实现车辆控制,根据逻辑公式,由状态输入值直接得到输出控制值,此类算法实现简单,不需要训练,且控制算法的输出结果可预测,较稳定,但是该算法不具备智能性,在真实驾驶的复杂场景中,容易被抢夺路权,因此该算法无法有效应对真实驾驶的复杂场景;采用强化学习算法实现车辆控制,能够使得驾驶策略更加智能,但是强化学习模型训练的时间成本较高,无法应用到实际的自动驾驶当中,且算法的输出结果不可预测;而现有的将规则和强化学习融合的算法,只能将规则算法和强化学习算法确定的结果进行线性相加,模型训练的时间成本依然较高,并且需要不断试错,导致无法应用到实际的自动驾驶当中。
技术实现思路
本申请的目的是提供一种基于强化学习和规则确定驾驶策略的方法与设备。根据本申请的一个方面,提供了一种基于强化学习和规则确定驾驶策略的方法,包括:基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。根据本申请的另一个方面,提供了一种基于强化学习和规则确定驾驶策略的设备,包括:第一驾驶策略信息确定装置,用于基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;检测装置,用于基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;目标驾驶策略信息确定装置,用于基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。根据本申请的另一方面,还提供了一种基于强化学习和规则确定驾驶策略的设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行以下操作:基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。根据本申请的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行以下操作:基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。与现有技术相比,本申请基于驾驶参数信息及车辆的驾驶规则信息,对通过强化学习算法确定所述车辆的第一驾驶策略信息进行合理性检测,并基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息以实现对车辆、特别是无人驾驶车辆、智能驾驶车辆的控制。在此,本申请对采用规则算法实现车辆控制与采用强化学习算法实现车辆控制的方法进行了更深层次的融合,对通过强化学习算法计算确定的第一驾驶策略信息用规则进行约束,通过这种新的融合技术,使得本申请的的驾驶策略的确定方法与现有的采用规则算法实现车辆控制的方法、或采用强化学习算法实现车辆控制的方法相比更加智能,并且提高了最终确定的驾驶策略的合理性和稳定性。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个方面的一种基于强化学习和规则确定驾驶策略的方法流程图;图2示出根据本申请一个方面的一种基于强化学习和规则确定驾驶策略的设备示意图;图3示出了可被用于实施本申请中所述的各个实施例的示例性系统。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本申请作进一步详细描述。在本申请一个典型的配置中,终端、服务网络的设备和计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(CloudComputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(AdHoc网络)等。图1示出根据本申请一个方面的一种基于强化学习和规则确定驾驶策略的方法流程图。其中,所述方法包括步骤S11、步骤S12和步骤S13。在本申请的一种实现方式中,所述方法在一种基于强化学习和规则确定驾驶策略的设备上执行。其中,在步骤S11中,可以基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;接着,在步骤S12中,可以基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;接着,在步骤S13中,可以基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。在本申请中,所述车辆可以包括但不限于以完全人类驾驶模式、辅助驾驶模式、部分自动驾驶模式、有条件自动驾驶模式、高度自动驾驶模式或完全自动驾驶模式等任意模式行驶的车辆。在一个优选实施例中,所述车辆可以包括无人驾驶车辆或智能驾驶车辆,其中,在一种实现方式中,所述无本文档来自技高网...
一种基于强化学习和规则确定驾驶策略的方法与设备

【技术保护点】
一种基于强化学习和规则确定驾驶策略的方法,其中,所述方法包括:基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。

【技术特征摘要】
1.一种基于强化学习和规则确定驾驶策略的方法,其中,所述方法包括:基于车辆的驾驶参数信息,通过强化学习算法确定所述车辆的第一驾驶策略信息;基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测;基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息。2.根据权利要求1所述的方法,其中,所述基于所述驾驶参数信息及所述车辆的驾驶规则信息,对所述第一驾驶策略信息进行合理性检测包括:基于所述驾驶参数信息及所述车辆的驾驶规则信息,确定所述车辆的第二驾驶策略信息;基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。3.根据权利要求2所述的方法,其中,所述基于所述合理性检测的检测结果,确定所述车辆的目标驾驶策略信息包括:若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值,将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。4.根据权利要求1所述的方法,其中,所述驾驶参数信息包括以下至少任一项:车辆的速度信息;车辆的偏离轨道方向信息;车辆与轨道中心线的距离信息;车辆与轨道边沿的距离信息;障碍物感知信息;交通标志感知信息。5.根据权利要求1所述的方法,其中,所述方法还包括:基于所述目标驾驶策略信息...

【专利技术属性】
技术研发人员:许稼轩周小成
申请(专利权)人:驭势科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1