一种细粒度专家行为模仿学习方法、装置、介质及终端制造方法及图纸

技术编号:36606129 阅读:12 留言:0更新日期:2023-02-04 18:28
本发明专利技术公开了一种细粒度专家行为模仿学习方法、装置、介质及终端,方法包括,获取智能体的当前环境状态信息,将当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据预测信息控制智能体执行相应动作,采集任务完成情况信息和当前动作的状态信息;根据动作的状态信息计算单次奖励值,根据任务完成情况信息计算任务奖励值;根据单次奖励值及任务奖励值训练预设预测网络模型,将任务奖励值和每局若干单次奖励值相加,得到总奖励值,当总奖励值大于阈值时,完成对预设预测网络模型的训练并将输出的策略返回,上述方法降低了训练难度、提高了训练效率,无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。模式的策略。模式的策略。

【技术实现步骤摘要】
一种细粒度专家行为模仿学习方法、装置、介质及终端


[0001]本专利技术涉及模仿学习领域,尤其涉及一种细粒度专家行为模仿学习方法、装置、介质及终端。

技术介绍

[0002]现有模仿学习多采用行为克隆方法和逆强化学习方法,其中,采用行为克隆方法可学习专家状态到专家动作的映射关系,但行为克隆方法具有在非完备信息三维视频游戏环境下,直接从高维空间中学习映射十分困难和会遇到分布漂移及复合误差的问题;而逆强化学习方法因涉及两个强化学习过程,通常具有训练难度高、效率低、不稳定的问题,除此之外上述两种方法往往需要大量的专家数据才能取得相对比较好的结果,而收集大量高质量的专家数据往往存在一定困难。

技术实现思路

[0003]鉴于上述现有技术的不足,本申请的目的在于提供一种细粒度专家行为模仿学习方法、装置、介质及终端,旨在解决传统模仿学习方法从高维状态、动作空间直接模仿时学习十分困难,最终得到的策略与专家策略偏差较大的问题。
[0004]为解决上述技术问题,本申请实施例第一方面提供了一种细粒度专家行为模仿学习方法,所述方法包括:
[0005]获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;
[0006]根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;
[0007]根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回。
[0008]作为进一步改进技术方案,所述预设预测网络模型为基于深度强化学习方法构建的操作预测网络模型。
[0009]作为进一步改进技术方案,所述获取智能体的当前环境状态信息之前还包括预先获取专家决策数据。
[0010]作为进一步改进技术方案,所述获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息包括:
[0011]获取智能体的当前环境状态信息,将所述当前环境状态信息输入所述操作预测网络模型中,以得到所述预测信息,其中,所述当前环境状态信息包括坐标信息、角度信息和
姿态信息,所述预测信息为动作概率分布;
[0012]基于所述动作概率分布采样选取一个动作操作信息,根据所述动作操作信息执行相应动作,其中,每个所述动作操作信息对应一个概率;
[0013]采集任务完成情况信息和当前所述动作的状态信息。
[0014]作为进一步改进技术方案,所述根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值,包括:
[0015]将所述动作的状态信息与所述专家决策数据进行对照,得到差异信息,根据所述差异信息计算单次模仿奖励值,其中,所述动作的状态信息与所述专家决策数据进行对照为将所述动作的状态信息中的动作关键帧与所述专家决策数据中的专家关键帧进行对照;
[0016]根据所述任务完成情况信息计算任务奖励值。
[0017]作为进一步改进技术方案,所述根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回包括:
[0018]将所述智能体初始化至随机采样状态;
[0019]采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将若干所述单次模仿奖励值与所述任务奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型;
[0020]将所述训练后的预测网络模型输出的策略返回。
[0021]作为进一步改进技术方案,采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将若干所述单次模仿奖励值与所述任务奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型包括:
[0022]选择预设时间段的所述专家决策数据对所述预设预测网络模型进行模仿学习训练,将预设时间段内所有单次模仿奖励值相加,得到单段模仿奖励值;
[0023]对是否再次进行训练进行判断,若所述单段模仿奖励值小于单段奖励阈值或触发提前终止条件时未通过单段训练,则重复对所述预设预测网络模型进行模仿学习训练,若所述单段模仿奖励值大于单段奖励阈值时通过单段训练,则在所述预设时间段的基础上增加新的时间段,得到累积时间段;
[0024]选择所述累积时间段的所述专家决策数据重复对所述预设预测网络模型进行模仿学习训练并重复对是否再次进行训练进行判断的过程,直至累积时间段等于一局时间段且所述任务奖励值与所述一局时间段内所有所述单次模仿奖励值相加值大于一局奖励阈值时完成对所述预设预测网络模型的训练,得到训练后的预测网络模型。
[0025]本申请实施例第二方面提供了一种细粒度专家行为模仿学习装置,包括:
[0026]信息采集模块,用于获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;
[0027]奖励值计算模块,用于根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;
[0028]模型训练模块,用于根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回。
[0029]本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的细粒度专家行为模仿学习方法中的步骤。
[0030]本申请实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
[0031]所述通信总线实现处理器和存储器之间的连接通信;
[0032]所述处理器执行所述计算机可读程序时实现如上任一所述的细粒度专家行为模仿学习方法中的步骤。
[0033]有益效果:相较于现有技术本专利技术的细粒度专家行为模仿学习方法包括,获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细粒度专家行为模仿学习方法,其特征在于,包括:获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息;根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值;根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回。2.根据权利要求1所述的一种细粒度专家行为模仿学习方法,其特征在于,所述预设预测网络模型为基于深度强化学习方法构建的操作预测网络模型。3.根据权利要求2所述的一种细粒度专家行为模仿学习方法,其特征在于,所述获取智能体的当前环境状态信息之前还包括预先获取专家决策数据。4.根据权利要求3所述的一种细粒度专家行为模仿学习方法,其特征在于,所述获取智能体的当前环境状态信息,将所述当前环境状态信息输入到预设预测网络模型中,以得到预测信息,根据所述预测信息控制所述智能体执行相应动作,采集任务完成情况信息和当前所述动作的状态信息包括:获取智能体的当前环境状态信息,将所述当前环境状态信息输入所述操作预测网络模型中,以得到所述预测信息,其中,所述当前环境状态信息包括坐标信息、角度信息和姿态信息,所述预测信息为动作概率分布;基于所述动作概率分布采样选取一个动作操作信息,根据所述动作操作信息执行相应动作,其中,每个所述动作操作信息对应一个概率;采集任务完成情况信息和当前所述动作的状态信息。5.根据权利要求4所述的一种细粒度专家行为模仿学习方法,其特征在于,所述根据所述动作的状态信息计算单次奖励值,根据所述任务完成情况信息计算任务奖励值,包括:将所述动作的状态信息与所述专家决策数据进行对照,得到差异信息,根据所述差异信息计算单次模仿奖励值,其中,所述动作的状态信息与所述专家决策数据进行对照为将所述动作的状态信息中的动作关键帧与所述专家决策数据中的专家关键帧进行对照;根据所述任务完成情况信息计算任务奖励值。6.根据权利要求5所述的一种细粒度专家行为模仿学习方法,其特征在于,所述根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将所述任务奖励值和每局若干所述单次奖励值相加,得到总奖励值,当所述总奖励值大于阈值时,完成对所述预设预测网络模型的训练,得到训练后的预测网络模型,并将所述训练后的预测网络模型输出的策略返回包括:将所述智能体初始化至随机采样状态;采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型,将若干所述单次模...

【专利技术属性】
技术研发人员:漆舒汉孙志航殷俊黄新昊万乐王轩张加佳王强
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1