当前位置: 首页 > 专利查询>清华大学专利>正文

一种动力学模型支持的有偏好模仿学习方法及系统技术方案

技术编号:35031865 阅读:20 留言:0更新日期:2022-09-24 23:06
本发明专利技术提供一种动力学模型支持的有偏好模仿学习方法及系统包括:获取自动驾驶训练所需要的训练样本集,其中,所述训练样本包含离线专家数据集和动力学模型数据集;通过预设的判别器输出加权值训练驾驶模仿策略模型;通过训练后的驾驶模仿策略模型,对自动驾驶车辆进行模仿训练。本发明专利技术解决了现有模仿学习可用专家数据有限、训练成本高、效率低的缺陷,以实现快速高效的有偏好模仿学习。快速高效的有偏好模仿学习。快速高效的有偏好模仿学习。

【技术实现步骤摘要】
一种动力学模型支持的有偏好模仿学习方法及系统


[0001]本专利技术涉及机器模仿学
,尤其涉及一种动力学模型支持的有偏好模仿学习方法及系统。

技术介绍

[0002]通过模仿学习能够获取目标学习对象的特性,生成与目标对象功能基本相同的模型,起到同样的作用。现有的模仿学习,可以采用在线模仿训练方式或者离线训练方式,在线训练方式中,常用的GAN结构,难训练,训练结果难以收敛;离线训练方式中,BCND结构利用上一时刻的输出对下一时刻进行加权,对专家数据集样本质量要求较高,难以到达理想效果;ORIL结构进行训练判别器作为奖励,耗费时间长,判别器与策略训练独立分开,导致训练效率低。
[0003]并且在采用离线模仿学习的方式时,需要从专家数据集中获取学习数据,但是专家数据集中数据量少,获取成本较高,质量难以保证,并且对场景的覆盖率有限。导致整体训练效果不佳,训练效率低。

技术实现思路

[0004]本专利技术提供一种动力学模型支持的有偏好模仿学习方法及系统,用以解决现有模仿学习可用专家数据有限、训练成本高、效率低的缺陷,以实现快速高效的有偏好模仿学习。
[0005]本专利技术提供一种动力学模型支持的有偏好模仿学习方法,包括:
[0006]获取自动驾驶训练所需要的训练样本集,其中,所述训练样本包含离线专家数据集和动力学模型数据集;
[0007]通过预设的判别器输出加权值训练驾驶模仿策略模型;
[0008]通过训练后的驾驶模仿策略模型,对自动驾驶车辆进行模仿训练
[0009]根据本专利技术提供的一种动力学模型支持的有偏好模仿学习方法,
[0010]获取驾驶模仿策略模型的训练样本,其中,所述训练样本包含离线专家数据集和动力学模型数据集;
[0011]通过预设的判别器输出加权值训练驾驶模仿策略模型,具体包括:
[0012]所述离线专家数据集和动力学模型数据集输入至判别器中,输出判断样本真实程度;
[0013]利用判别器输出加权值对驾驶模仿策略模型进行训练,学习专家数据;
[0014]其中,所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的。
[0015]根据本专利技术提供的一种动力学模型支持的有偏好模仿学习方法,所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的,具体包括:
[0016]将离线专家数据集输入至动力学模型;
[0017]所述动力学模型根据离线专家数据集中的专家数据进行学习,并进行数据扩增,生成动力学模型数据集;
[0018]所述动力学模型数据集中包括真实专家数据和伪专家数据。
[0019]根据本专利技术提供的一种动力学模型支持的有偏好模仿学习方法,所述离线专家数据集和动力学模型数据集输入至判别器中,输出判断样本真实程度,具体包括:
[0020]所述判别器对输入的离线专家数据集和动力学模型数据集进行判别,判别出真实的专家数据;
[0021]所述真实的专家数据为真值样本,提升真实的专家数据的权重。
[0022]根据本专利技术提供的一种动力学模型支持的有偏好模仿学习方法,所述真实的专家数据为真值样本,提升真实的专家数据的权重,具体包括:
[0023]判别器判断出的数据包括真实的专家数据和伪专家数据;
[0024]对于真值样本提升权重,对于伪专家数据降低权重系数;
[0025]判别器根据权重系统的不同,输出加权值。
[0026]根据本专利技术提供的一种动力学模型支持的有偏好模仿学习方法,所述判别器与动力学模型进行对抗耦合训练,将判别器判断的结果反馈至动力学模型,使动力学模型调整学习策略,学习更多真实数据。
[0027]根据本专利技术提供的一种动力学模型支持的有偏好模仿学习方法,所述通过训练后的驾驶模仿策略模型,对自动驾驶车辆进行模仿训练,具体包括:
[0028]通过判别器输出加权值对驾驶模仿策略模型进行训练,修正模仿学习策略,生成修正后的驾驶模仿策略模型;
[0029]所述修正后的驾驶模仿策略模型对真实的专家数据进行模仿学习,模仿专家数据集对应的功能。
[0030]本专利技术还提供一种动力学模型支持的有偏好模仿学习系统,所述系统包括:
[0031]数据获取模块,获取自动驾驶训练所需要的训练样本集,其中,所述训练样本包含离线专家数据集和动力学模型数据集;
[0032]模仿学习模块,通过预设的判别器输出加权值训练驾驶模仿策略模型;
[0033]训练模块,通过训练后的驾驶模仿策略模型,对自动驾驶车辆进行模仿训练。
[0034]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述一种动力学模型支持的有偏好模仿学习方法。
[0035]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述一种动力学模型支持的有偏好模仿学习方法。
[0036]本专利技术提供的一种动力学模型支持的有偏好模仿学习方法及系统,通过引入系统动力学模型并利用其产生的数据训练模仿策略,弥补了专家数据集样本量的不足,并且在一定程度上缓解了传统模仿学习在有限专家数据集无法覆盖全状态空间时可能引起的复合误差。通过引入判别器实现了有偏好的模仿学习,对来自不同数据集的样本计算不同的权重,使得模仿策略对贴近专家数据集的无奖励标签样本或动力学模型生成样本更加敏感,从而使驾驶策略鲁棒性更高,性能更优。
附图说明
[0037]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1是本专利技术提供的一种动力学模型支持的有偏好模仿学习方法的流程示意图之一;
[0039]图2是本专利技术提供的一种动力学模型支持的有偏好模仿学习方法的流程示意图之二;
[0040]图3是本专利技术提供的一种动力学模型支持的有偏好模仿学习方法的流程示意图之三;
[0041]图4是本专利技术提供的一种动力学模型支持的有偏好模仿学习方法的流程示意图之四;
[0042]图5是本专利技术提供的一种动力学模型支持的有偏好模仿学习方法的流程示意图之五;
[0043]图6是本专利技术提供的电子设备的结构示意图。
[0044]图7是本专利技术提供的一种动力学模型支持的有偏好模仿学习系统的模块连接示意图;
[0045]图8是本专利技术提供的一种动力学模型支持的有偏好模仿学习方法的架构图;
[0046]图9是本专利技术提供的一种动力学模型支持的有偏好模仿学习在Hopper

expert环境下原始模仿学习方法的学习曲线示意图;
[0047]图10是本专利技术提供的一种动力学模型支持本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动力学模型支持的有偏好模仿学习方法,其特征在于,包括:获取自动驾驶训练所需要的训练样本集,其中,所述训练样本包含离线专家数据集和动力学模型数据集;通过预设的判别器输出加权值训练驾驶模仿策略模型;通过训练后的驾驶模仿策略模型,对自动驾驶车辆进行模仿训练。2.根据权利要求1所述的动力学模型支持的有偏好模仿学习方法,其特征在于,通过预设的判别器输出加权值训练驾驶模仿策略模型,具体包括:所述离线专家数据集和动力学模型数据集输入至判别器中,输出判断样本真实程度;利用判别器输出加权值对驾驶模仿策略模型进行训练,学习专家数据;其中,所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的。3.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法,其特征在于,所述动力学模型数据集是通过动力学模型对离线专家数据集进行学习所生成的,具体包括:将离线专家数据集输入至动力学模型;所述动力学模型根据离线专家数据集中的专家数据进行学习,并进行数据扩增,生成动力学模型数据集;所述动力学模型数据集中包括真实专家数据和伪专家数据。4.根据权利要求2所述的动力学模型支持的有偏好模仿学习方法,其特征在于,所述离线专家数据集和动力学模型数据集输入至判别器中,输出判断样本真实程度,具体包括:所述判别器对输入的离线专家数据集和动力学模型数据集进行判定,判别出真实的专家数据;所述真实的专家数据为真值样本,提升真实的专家数据的权重。5.根据权利要求4所述的动力学模型支持的有偏好模仿学习方法,其特征在于,所述真实的专家数据为真值样本,提升真实的专家数据的权重,具体...

【专利技术属性】
技术研发人员:詹仙园张文嘉
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1