一种进行驾驶策略模型训练的方法与设备技术

技术编号:17597812 阅读:44 留言:0更新日期:2018-03-31 10:45
本申请的目的是提供一种进行驾驶策略模型训练的方法或设备;获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。与现有技术相比,本申请对所述驾驶策略模型进行训练并不需要从零开始探索,而是在训练开始之前,所述驾驶设备已经学会了像驾驶规则一样驾驶了,在此基础上进行的驾驶策略模型的训练的过程将大大缩短,并且不合理驾驶策略的次数、训练过程对车辆造成的损伤也将大大减少。

A method and equipment for the training of driving strategy model

The invention aims to provide a method for driving the strategy model of training or equipment; model parameter information, the corresponding driving strategy model of the driving equipment acquisition, the parameters of the model information is scheduled for the rules of driving information to determine the pre training the driving strategy based on the model of the driving model of reinforcement learning strategy based on the algorithm; obtain driving parameter information of driving equipment in running, the model parameters based on the information of the driving strategy training model. Compared with the existing technology, the application of the driving strategy model for training does not need to begin with zero, but before training, the driving device has learned to like driving rules like driving, which is based on driving strategy model training process will be greatly shortened, and the unreasonable driving strategy the number and the training process of vehicle damage will also be greatly reduced.

【技术实现步骤摘要】
一种进行驾驶策略模型训练的方法与设备
本申请涉及自动驾驶领域,尤其涉及一种进行驾驶策略模型训练的技术。
技术介绍
随着机器学习技术的发展和应用,例如,强化学习技术的发展,在现有的自动驾驶技术中,对于车辆,特别是自动驾驶车辆的驾驶控制可以通过强化学习算法训练出的强化学习神经网络来实现,即将车辆实时的状态信息输入到所述强化学习神经网络,从而输出相应的驾驶策略信息,但是,现有的对所述强化学习神经网络的训练,对于每一辆需要训练的车辆,都需要从零开始不断训练相应的神经网络参数,然而,在实际应用中,对于不同车辆来说,由于其车辆参数(车长,重量,轴距,零件等等)不同,相应的神经网络参数不同,如果对于每一辆车都要进行一次从零开始的强化学习训练,需要经历漫长的训练和试错过程,将会带来巨大的的训练成本。并且,大量的训练和试错,若应用在实际的车辆上,还会在消耗漫长时间的同时、对车体造成巨大损害。
技术实现思路
本申请的目的是提供一种进行驾驶策略模型训练的方法与设备。根据本申请的一个方面,提供了一种进行驾驶策略模型训练的方法,包括:获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。根据本申请的又一个方面,还提供了一种进行驾驶策略模型训练的驾驶设备,包括:获取装置,用于获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;训练装置,用于获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。根据本申请的另一方面,还提供了进行驾驶策略模型训练的驾驶设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行以下操作:获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。根据本申请的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行以下操作:获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。与现有技术相比,本申请在驾驶设备上、基于获取车辆的驾驶策略模型对应的模型参数信息,对所述驾驶策略模型进行训练,在此,所述驾驶策略模型已基于预定的驾驶规则信息经过预训练。基于通过驾驶规则信息控制车辆具有的稳定性、简单性,并且大多数情况下可以在不同的车辆上通用的特点,预训练出的驾驶策略模型能够能够模仿驾驶规则信息进行驾驶,所述预训练可以适用于不同类型的车辆;并且利用规则做约束,可以减少驾驶策略模型预训练中不合理驾驶策略出现的次数,提高最终的驾驶策略信息的合理性和稳定性;同时,可以提高强化学习的训练过程的效率,降低训练时间和试错次数。因此,所述对所述驾驶策略模型进行训练并不需要从零开始探索,而是在训练开始之前,所述驾驶设备已经学会了像驾驶规则一样驾驶了,所述预训练确定的模型参数信息已经比较接近所述驾驶策略模型的参数的最终收敛值,因此,在此基础上进行的驾驶策略模型的训练的过程将大大缩短,并且不合理驾驶策略的次数、训练过程对车辆造成的损伤也将大大减少,从而使得将强化学习技术运用在真实的驾驶领域、特别是自动驾驶或智能驾驶领域更加可行。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个方面的一种进行驾驶策略模型训练的方法流程图;图2示出根据本申请另一个方面的一种进行驾驶策略模型训练的驾驶设备的设备示意图;图3示出了可被用于实施本申请中所述的各个实施例的示例性系统;图4示出根据本申请一个方面的一个实施例的一种进行驾驶策略模型的预训练的实例图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本申请作进一步详细描述。在本申请一个典型的配置中,终端、服务网络的设备和计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。图1示出根据本申请一个方面的一种进行驾驶策略模型训练的方法流程图;其中,所述方法包括步骤S11和步骤S12。在本申请的一种实现方式中,所述方法在一种进行驾驶策略模型训练的驾驶设备上执行。其中,在步骤S11中,可以获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;接着,在步骤S12中,可以获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。在本申请的一种实现方式中,所述驾驶策略模型的预训练可以是在相应的计算设备构建的虚拟环境中执行的。所述计算设备可以包括但不限于仿真器、计算机模拟器,如Torcs模拟器等。所述计算设备可以是相对于所述驾驶设备独立存在的,也可以是包含在驾驶设备中。在本申请中,所述驾驶设备可以包括可以路面、空中、水中行驶的各类行驶的设备,如飞行器、车辆。所述车辆可以包括但不限于以完全人类驾驶模式、辅助驾驶模式、部分自动驾驶模式、有条件自动驾驶模式、高度自动驾驶模式或完全自动驾驶模式等任意模式行驶的车辆。在一个优选实施例中,所述车辆可以包括无人驾驶车辆或智能驾驶车辆,其中,在一种实现方式中,所述无人驾驶车辆可以包括所述在完全自动驾驶模式下行驶的车辆;所述智能驾驶车辆可以包括在辅助驾驶模式、部分自动驾驶模式、有条件自动驾驶模式、高度自动驾驶模式等模式下行驶的本文档来自技高网...
一种进行驾驶策略模型训练的方法与设备

【技术保护点】
一种进行驾驶策略模型训练的方法,其中,所述方法包括:获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。

【技术特征摘要】
1.一种进行驾驶策略模型训练的方法,其中,所述方法包括:获取驾驶设备的驾驶策略模型对应的模型参数信息,其中,所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的,所述驾驶策略模型基于强化学习算法建立;获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练。2.根据权利要求1所述的方法,其中,所述预训练包括:基于所述驾驶设备的历史驾驶参数信息及对应的驾驶规则信息,确定所述驾驶设备的第一驾驶策略信息;基于所述驾驶设备的历史驾驶参数信息,通过强化学习算法确定所述驾驶设备的第二驾驶策略信息;基于所述第一驾驶策略信息及所述第二驾驶策略信息,训练驾驶策略模型。3.根据权利要求2所述的方法,其中,进行过所述预训练的所述驾驶策略模型满足对应的第一回馈函数的评价指标,所述第一回馈函数的评价指标包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值。4.根据权利要求1所述的方法,其中,所述获取驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,对所述驾驶策略模型进行训练包括:获取所述驾驶设备行驶中的驾驶参数信息,基于所述模型参数信息,确定所述驾驶设备的第三驾驶策略信息;执行所述第三驾驶策略信息;利用所述驾驶策略模型对应的第二回馈函数的评价指标对所述执行所述第三驾驶策略信息的执行结果进行判断;基于判断结...

【专利技术属性】
技术研发人员:许稼轩周小成
申请(专利权)人:驭势科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1