一种动力学模型支持的有偏好模仿学习方法及系统技术方案

技术编号：35031865 阅读：20 留言：0更新日期：2022-09-24 23:06

本发明专利技术提供一种动力学模型支持的有偏好模仿学习方法及系统包括：获取自动驾驶训练所需要的训练样本集，其中，所述训练样本包含离线专家数据集和动力学模型数据集；通过预设的判别器输出加权值训练驾驶模仿策略模型；通过训练后的驾驶模仿策略模型，对自动驾驶车辆进行模仿训练。本发明专利技术解决了现有模仿学习可用专家数据有限、训练成本高、效率低的缺陷，以实现快速高效的有偏好模仿学习。快速高效的有偏好模仿学习。快速高效的有偏好模仿学习。

全部详细技术资料下载

【技术实现步骤摘要】
一种动力学模型支持的有偏好模仿学习方法及系统

[0001]本专利技术涉及机器模仿学
，尤其涉及一种动力学模型支持的有偏好模仿学习方法及系统。

技术介绍

[0002]通过模仿学习能够获取目标学习对象的特性，生成与目标对象功能基本相同的模型，起到同样的作用。现有的模仿学习，可以采用在线模仿训练方式或者离线训练方式，在线训练方式中，常用的GAN结构，难训练，训练结果难以收敛；离线训练方式中，BCND结构利用上一时刻的输出对下一时刻进行加权，对专家数据集样本质量要求较高，难以到达理想效果；ORIL结构进行训练判别器作为奖励，耗费时间长，判别器与策略训练独立分开，导致训练效率低。
[0003]并且在采用离线模仿学习的方式时，需要从专家数据集中获取学习数据，但是专家数据集中数据量少，获取成本较高，质量难以保证，并且对场景的覆盖率有限。导致整体训练效果不佳，训练效率低。

技术实现思路

[0004]本专利技术提供一种动力学模型支持的有偏好模仿学习方法及系统，用以解决现有模仿学习可用专家数据有限、训练成本高、效率低的缺陷，以实现快速高效的有偏好模仿学习。
[0005]本专利技术提供一种动力学模型支持的有偏好模仿学习方法，包括：
[0006]获取自动驾驶训练所需要的训练样本集，其中，所述训练样本包含离线专家数据集和动力学模型数据集；
[0007]通过预设的判别器输出加权值训练驾驶模仿策略模型；
[0008]通过训练后的驾驶模仿策略模型，对自动驾驶车辆进行模仿训练
[0...

【技术保护点】

【技术特征摘要】
1.一种动力学模型支持的有偏好模仿学习方法，其特征在于，包括：获取自动驾驶训练所需要的训练样本集，其中，所述训练样本包含离线专家数据集和动力学模型数据集；通过预设的判别器输出加权值训练驾驶模仿策略模型；通过训练后的驾驶模仿策略模型，对自动驾驶车辆进行模仿训练。2.根据权利要求1所述的动力学模型支持的有偏好模仿学习方法，其特征在于，通过预设的判别器输出加权值训练驾驶模仿策略模型，具体包括：所述离线专家数据集和动力学模型数据集输入至判别器中，输出判断样本真实程度；利用判别器输出加权值对驾驶模仿策略模型进行训练，学习专家数据；其中，所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的。3.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的，具体包括：将离线专家数据集输入至动力学模型；所述动力学模型根据离线专家数据集中的专家数据进行学习，并进行数据扩增，生成动力学模型数据集；所述动力学模型数据集中包括真实专家数据和伪专家数据。4.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述离线专家数据集和动力学模型数据集输入至判别器中，输出判断样本真实程度，具体包括：所述判别器对输入的离线专家数据集和动力学模型数据集进行判定，判别出真实的专家数据；所述真实的专家数据为真值样本，提升真实的专家数据的权重。5.根据权利要求4所述的动力学模型支持的有偏好模仿学习方法，其特征在于，所述真实的专家数据为真值样本，提升真实的专家数据的权重，具体...

【专利技术属性】
技术研发人员：詹仙园，张文嘉，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人