下载一种利用失败数据提升性能的模仿学习训练方法的技术资料

文档序号:37383577

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明公开了一种利用失败数据提升性能的模仿学习训练方法,首先收集专家演示轨迹,然后对部分专家演示轨迹做成功与否的标记,接下来根据已标签数据训练鉴别器,最后进行生成对抗模仿学习以获得目标策略。本发明可以获得比专家演示平均成功率更高的控制策略。...
该专利属于西北工业大学所有,仅供学习研究参考,未经过西北工业大学授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。