一种进行驾驶策略模型训练的方法与设备技术

技术编号：17597812 阅读：44 留言：0更新日期：2018-03-31 10:45

本申请的目的是提供一种进行驾驶策略模型训练的方法或设备；获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练。与现有技术相比，本申请对所述驾驶策略模型进行训练并不需要从零开始探索，而是在训练开始之前，所述驾驶设备已经学会了像驾驶规则一样驾驶了，在此基础上进行的驾驶策略模型的训练的过程将大大缩短，并且不合理驾驶策略的次数、训练过程对车辆造成的损伤也将大大减少。

A method and equipment for the training of driving strategy model

The invention aims to provide a method for driving the strategy model of training or equipment; model parameter information, the corresponding driving strategy model of the driving equipment acquisition, the parameters of the model information is scheduled for the rules of driving information to determine the pre training the driving strategy based on the model of the driving model of reinforcement learning strategy based on the algorithm; obtain driving parameter information of driving equipment in running, the model parameters based on the information of the driving strategy training model. Compared with the existing technology, the application of the driving strategy model for training does not need to begin with zero, but before training, the driving device has learned to like driving rules like driving, which is based on driving strategy model training process will be greatly shortened, and the unreasonable driving strategy the number and the training process of vehicle damage will also be greatly reduced.

全部详细技术资料下载

【技术实现步骤摘要】
一种进行驾驶策略模型训练的方法与设备
本申请涉及自动驾驶领域，尤其涉及一种进行驾驶策略模型训练的技术。
技术介绍
随着机器学习技术的发展和应用，例如，强化学习技术的发展，在现有的自动驾驶技术中，对于车辆，特别是自动驾驶车辆的驾驶控制可以通过强化学习算法训练出的强化学习神经网络来实现，即将车辆实时的状态信息输入到所述强化学习神经网络，从而输出相应的驾驶策略信息，但是，现有的对所述强化学习神经网络的训练，对于每一辆需要训练的车辆，都需要从零开始不断训练相应的神经网络参数，然而，在实际应用中，对于不同车辆来说，由于其车辆参数(车长，重量，轴距，零件等等)不同，相应的神经网络参数不同，如果对于每一辆车都要进行一次从零开始的强化学习训练，需要经历漫长的训练和试错过程，将会带来巨大的的训练成本。并且，大量的训练和试错，若应用在实际的车辆上，还会在消耗漫长时间的同时、对车体造成巨大损害。
技术实现思路
本申请的目的是提供一种进行驾驶策略模型训练的方法与设备。根据本申请的一个方面，提供了一种进行驾驶策略模型训练的方法，包括：获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练。根据本申请的又一个方面，还提供了一种进行驾驶策略模型训练的驾驶设备，包括：获取装置，用于获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确...
一种进行驾驶策略模型训练的方法与设备

【技术保护点】
一种进行驾驶策略模型训练的方法，其中，所述方法包括：获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练。

【技术特征摘要】
1.一种进行驾驶策略模型训练的方法，其中，所述方法包括：获取驾驶设备的驾驶策略模型对应的模型参数信息，其中，所述模型参数信息是基于预定的驾驶规则信息对所述驾驶策略模型进行预训练确定的，所述驾驶策略模型基于强化学习算法建立；获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练。2.根据权利要求1所述的方法，其中，所述预训练包括：基于所述驾驶设备的历史驾驶参数信息及对应的驾驶规则信息，确定所述驾驶设备的第一驾驶策略信息；基于所述驾驶设备的历史驾驶参数信息，通过强化学习算法确定所述驾驶设备的第二驾驶策略信息；基于所述第一驾驶策略信息及所述第二驾驶策略信息，训练驾驶策略模型。3.根据权利要求2所述的方法，其中，进行过所述预训练的所述驾驶策略模型满足对应的第一回馈函数的评价指标，所述第一回馈函数的评价指标包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离小于预定阈值。4.根据权利要求1所述的方法，其中，所述获取驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，对所述驾驶策略模型进行训练包括：获取所述驾驶设备行驶中的驾驶参数信息，基于所述模型参数信息，确定所述驾驶设备的第三驾驶策略信息；执行所述第三驾驶策略信息；利用所述驾驶策略模型对应的第二回馈函数的评价指标对所述执行所述第三驾驶策略信息的执行结果进行判断；基于判断结...

【专利技术属性】
技术研发人员：许稼轩，周小成，
申请(专利权)人：驭势科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人