一种细粒度专家行为模仿学习方法、装置、介质及终端制造方法及图纸

技术编号：36606129 阅读：12 留言：0更新日期：2023-02-04 18:28

本发明专利技术公开了一种细粒度专家行为模仿学习方法、装置、介质及终端，方法包括，获取智能体的当前环境状态信息，将当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据预测信息控制智能体执行相应动作，采集任务完成情况信息和当前动作的状态信息；根据动作的状态信息计算单次奖励值，根据任务完成情况信息计算任务奖励值；根据单次奖励值及任务奖励值训练预设预测网络模型，将任务奖励值和每局若干单次奖励值相加，得到总奖励值，当总奖励值大于阈值时，完成对预设预测网络模型的训练并将输出的策略返回，上述方法降低了训练难度、提高了训练效率，无需采集大量专家数据即可在高维状态、动作空间中学习到接近专家行为模式的策略。模式的策略。模式的策略。

全部详细技术资料下载

【技术实现步骤摘要】
一种细粒度专家行为模仿学习方法、装置、介质及终端

[0001]本专利技术涉及模仿学习领域，尤其涉及一种细粒度专家行为模仿学习方法、装置、介质及终端。

技术介绍

[0002]现有模仿学习多采用行为克隆方法和逆强化学习方法，其中，采用行为克隆方法可学习专家状态到专家动作的映射关系，但行为克隆方法具有在非完备信息三维视频游戏环境下，直接从高维空间中学习映射十分困难和会遇到分布漂移及复合误差的问题；而逆强化学习方法因涉及两个强化学习过程，通常具有训练难度高、效率低、不稳定的问题，除此之外上述两种方法往往需要大量的专家数据才能取得相对比较好的结果，而收集大量高质量的专家数据往往存在一定困难。

技术实现思路

[0003]鉴于上述现有技术的不足，本申请的目的在于提供一种细粒度专家行为模仿学习方法、装置、介质及终端，旨在解决传统模仿学习方法从高维状态、动作空间直接模仿时学习十分困难，最终得到的策略与专家策略偏差较大的问题。
[0004]为解决上述技术问题，本申请实施例第一方面提供了一种细粒度专家行为模仿学习方法，所述方法包括：
[0005]获取智能体的当前环境状态信息，将所述当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据所述预测信息控制所述智能体执行相应动作，采集任务完成情况信息和当前所述动作的状态信息；
[0006]根据所述动作的状态信息计算单次奖励值，根据所述任务完成情况信息计算任务奖励值；
[0007]根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将所述...

【技术保护点】

【技术特征摘要】
1.一种细粒度专家行为模仿学习方法，其特征在于，包括：获取智能体的当前环境状态信息，将所述当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据所述预测信息控制所述智能体执行相应动作，采集任务完成情况信息和当前所述动作的状态信息；根据所述动作的状态信息计算单次奖励值，根据所述任务完成情况信息计算任务奖励值；根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将所述任务奖励值和每局若干所述单次奖励值相加，得到总奖励值，当所述总奖励值大于阈值时，完成对所述预设预测网络模型的训练，得到训练后的预测网络模型，并将所述训练后的预测网络模型输出的策略返回。2.根据权利要求1所述的一种细粒度专家行为模仿学习方法，其特征在于，所述预设预测网络模型为基于深度强化学习方法构建的操作预测网络模型。3.根据权利要求2所述的一种细粒度专家行为模仿学习方法，其特征在于，所述获取智能体的当前环境状态信息之前还包括预先获取专家决策数据。4.根据权利要求3所述的一种细粒度专家行为模仿学习方法，其特征在于，所述获取智能体的当前环境状态信息，将所述当前环境状态信息输入到预设预测网络模型中，以得到预测信息，根据所述预测信息控制所述智能体执行相应动作，采集任务完成情况信息和当前所述动作的状态信息包括：获取智能体的当前环境状态信息，将所述当前环境状态信息输入所述操作预测网络模型中，以得到所述预测信息，其中，所述当前环境状态信息包括坐标信息、角度信息和姿态信息，所述预测信息为动作概率分布；基于所述动作概率分布采样选取一个动作操作信息，根据所述动作操作信息执行相应动作，其中，每个所述动作操作信息对应一个概率；采集任务完成情况信息和当前所述动作的状态信息。5.根据权利要求4所述的一种细粒度专家行为模仿学习方法，其特征在于，所述根据所述动作的状态信息计算单次奖励值，根据所述任务完成情况信息计算任务奖励值，包括：将所述动作的状态信息与所述专家决策数据进行对照，得到差异信息，根据所述差异信息计算单次模仿奖励值，其中，所述动作的状态信息与所述专家决策数据进行对照为将所述动作的状态信息中的动作关键帧与所述专家决策数据中的专家关键帧进行对照；根据所述任务完成情况信息计算任务奖励值。6.根据权利要求5所述的一种细粒度专家行为模仿学习方法，其特征在于，所述根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将所述任务奖励值和每局若干所述单次奖励值相加，得到总奖励值，当所述总奖励值大于阈值时，完成对所述预设预测网络模型的训练，得到训练后的预测网络模型，并将所述训练后的预测网络模型输出的策略返回包括：将所述智能体初始化至随机采样状态；采用课程学习的方式并根据所述单次奖励值及所述任务奖励值训练预设预测网络模型，将若干所述单次模...

【专利技术属性】
技术研发人员：漆舒汉，孙志航，殷俊，黄新昊，万乐，王轩，张加佳，王强，
申请(专利权)人：哈尔滨工业大学深圳，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人