目标对象控制方法和装置、计算设备、存储介质制造方法及图纸

技术编号：35480996 阅读：21 留言：0更新日期：2022-11-05 16:31

本申请公开了一种目标对象控制方法，包括：获取来源于智能体网络的多个环境交互数据并基于多个环境交互数据确定候选样本数据集，智能体网络包括执行者网络和评价网络；将候选样本数据集中的每个候选样本数据分别输入到评价网络的多个子评价网络，并利用各个自评价网络的输出值的一致性来确定候选样本数据的采样优先级；根据每个候选样本数据的采样优先级来对候选样本数据集进行采样；基于被采样的候选样本数据对智能体网络进行训练；根据经训练的智能体网络中的执行者网络对目标对象进行控制。行控制。行控制。

全部详细技术资料下载

【技术实现步骤摘要】
目标对象控制方法和装置、计算设备、存储介质

[0001]本申请涉及互联网
，特别涉及目标对象控制方法和装置、计算设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]目前，深度强化学习控制算法在对机器人进行控制方面得到了广泛的应用，并在此算法基础之上发展出了各种控制机器人的神经网络。不同的神经网络在不同的应用场景具有不同的性能，在稀疏奖励的环境中，如何提升控制机器人的神经网络的性能，成为亟待解决的问题。
[0003]在相关技术中，一种技术方案称为后见之明经验回放（Hindsight Experience Replay，HER），通过随机对环境交互数据进行修改，根据机器人曾经达到过的环境状态来修改目标值，来提升控制机器人的神经网络的训练效果，但效果不显著。另外一种技术方案称为基于后见之明经验回放的能量的优先回放（HER Energy Based Prioritization，HEREBP），应用在控制机械手的三维环境中，通过物理公式计算两个目标之间动能差、势能差和旋转势能差来优先回放训练数据，从而提高控制机械手的神经网络的训练效果，但这种技术方案可应用场景太少，泛化能力较差。另有一种技术方案称为课程引导的后见之明经验回放（Curriculum
‑
guided，CHER），该技术方案根据特定场景的特征提出了一种函数用来计算回放数据的优先级，同样仅适用于该特定场景的应用，泛化能力较差。还有一种技术方案称为价值分歧采样（Value Disagreement Sampling，VDS...

【技术保护点】

【技术特征摘要】
1.一种目标对象控制方法，包括：获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集，其中所述多个环境交互数据中的每个环境交互数据至少包括环境状态、目标值、执行动作，所述候选样本数据集包括至少一部分环境交互数据，所述智能体网络包括执行者网络和评价网络，所述执行者网络用于基于环境状态和目标值来确定执行动作，所述评价网络包括多个子评价网络，每个子评价网络用于基于所述环境状态、所述目标值和所述执行动作来评价所述执行者网络；将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络，并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级；根据所述每个候选样本数据的采样优先级来对所述候选样本数据集进行采样；基于被采样的候选样本数据对所述智能体网络进行训练；根据所述经训练的智能体网络中的执行者网络对所述目标对象进行控制。2.根据权利要求1所述的方法，其中所述多个环境交互数据中每个环境交互数据还包括反馈的环境状态；并且其中所述获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集，包括：获取来源于智能体网络的多个环境交互数据；对于所述多个环境交互数据中的至少部分环境交互数据中的每个环境交互数据，基于所述环境交互数据的反馈的环境状态来修改所述环境交互数据的目标值；基于经修改的至少部分环境交互数据更新所述多个环境交互数据以确定所述候选样本数据集。3.根据权利要求1或2所述的方法，其中每个子评价网络的输出值为预测的奖励值，并且其中所述将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络，并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级，包括：对于所述候选样本数据集中的每个候选样本数据，分别执行下述步骤：将所述候选样本数据分别输入到所述评价网络的多个子评价网络，得到多个预测的奖励值；利用所述候选样本数据对应的多个预测的奖励值的一致性来确定所述候选样本数据的采样优先级。4.根据权利要求3所述的方法，其中所述利用所述候选样本数据对应的多个预测的奖励值的一致性来确定所述候选样本数据的采样优先级，包括：确定所述候选样本数据的多个预测的奖励值的方差，作为所述候选样本数据的方差；根据所述候选样本数据的方差来确定所述候选样本数据的采样优先级，其中所述候选样本数据的采样优先级与相应的方差成负相关。5.根据权利要求4所述的方法，其中所述根据所述候选样本数据的方差来确定所述候选样本数据的采样优先级，包括：将所述候选样本数据集的各个候选样本数据的方差中的最大的方差与所述候选样本数据的方差的差值作为所述候选样本数据的中间采样优先级；
将所述候选样本数据集的各个候选样本数据的中间采样优先级之和作为总采样优先级；基于所述候选样本数据的中间采样优先级与总采样优先级之商来确定所述候选样本数据的采样优先级。6.根据权利要求5所述的方法，其中所述基于所述候选样本数据的中间采样优先级与总采样优先级之商来确定所述候选样本数据的采样优先级，包括：将预设参数作为幂，对所述候选样本数据的中间采样优先级与总采样优先级之商进行幂运算，作为所述候选样本数据的采样优先级，其中所述预设参数大于零。7...

【专利技术属性】
技术研发人员：徐家卫，李舒兴，袁春，韩磊，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人