目标对象控制方法和装置、计算设备、存储介质制造方法及图纸

技术编号:35480996 阅读:21 留言:0更新日期:2022-11-05 16:31
本申请公开了一种目标对象控制方法,包括:获取来源于智能体网络的多个环境交互数据并基于多个环境交互数据确定候选样本数据集,智能体网络包括执行者网络和评价网络;将候选样本数据集中的每个候选样本数据分别输入到评价网络的多个子评价网络,并利用各个自评价网络的输出值的一致性来确定候选样本数据的采样优先级;根据每个候选样本数据的采样优先级来对候选样本数据集进行采样;基于被采样的候选样本数据对智能体网络进行训练;根据经训练的智能体网络中的执行者网络对目标对象进行控制。行控制。行控制。

【技术实现步骤摘要】
目标对象控制方法和装置、计算设备、存储介质


[0001]本申请涉及互联网
,特别涉及目标对象控制方法和装置、计算设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]目前,深度强化学习控制算法在对机器人进行控制方面得到了广泛的应用,并在此算法基础之上发展出了各种控制机器人的神经网络。不同的神经网络在不同的应用场景具有不同的性能,在稀疏奖励的环境中,如何提升控制机器人的神经网络的性能,成为亟待解决的问题。
[0003]在相关技术中,一种技术方案称为后见之明经验回放(Hindsight Experience Replay,HER),通过随机对环境交互数据进行修改,根据机器人曾经达到过的环境状态来修改目标值,来提升控制机器人的神经网络的训练效果,但效果不显著。另外一种技术方案称为基于后见之明经验回放的能量的优先回放(HER Energy Based Prioritization,HEREBP),应用在控制机械手的三维环境中,通过物理公式计算两个目标之间动能差、势能差和旋转势能差来优先回放训练数据,从而提高控制机械手的神经网络的训练效果,但这种技术方案可应用场景太少,泛化能力较差。另有一种技术方案称为课程引导的后见之明经验回放(Curriculum

guided,CHER),该技术方案根据特定场景的特征提出了一种函数用来计算回放数据的优先级,同样仅适用于该特定场景的应用,泛化能力较差。还有一种技术方案称为价值分歧采样(Value Disagreement Sampling,VDS),通过计算环境交互数据的目标值的不确定性来回放训练数据,来提升控制机器人的神经网络的训练效果,但这要求环境可以被修改或设计。以上各技术方案泛化能力较差,需要修改环境。

技术实现思路

[0004]鉴于此,本申请提供了目标对象控制方法和装置、计算设备、计算机可读存储介质及计算机程序产品,期望缓解或克服上面提到的部分或全部缺陷以及其他可能的缺陷。
[0005]根据本申请的第一方面,提供了一种目标对象控制方法,包括:获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集,其中所述多个环境交互数据中的每个环境交互数据至少包括环境状态、目标值、执行动作,所述候选样本数据集包括至少一部分环境交互数据,所述智能体网络包括执行者网络和评价网络,所述执行者网络用于基于环境状态和目标值来确定执行动作,所述评价网络包括多个子评价网络,每个子评价网络用于基于所述环境状态、所述目标值和所述执行动作来评价所述执行者网络;将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络,并利用各个自评价网络的输出值的一致性来确定所述候选样本数据的采样优先级;根据所述每个候选样本数据的采样优先级来对所述候选样本数据集进行采样;基于被采样的候选样本数据对所述智能体网络进行训练;根据所述经训练的智能体网络中的执行者网络对所述目标对象进行控制。
[0006]根据本申请的第二方面,提供了一种目标对象控制装置,包括:获取模块,配置为获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集,其中所述多个环境交互数据中的每个环境交互数据至少包括环境状态、目标值、执行动作,所述候选样本数据集包括至少一部分环境交互数据,所述智能体网络包括执行者网络和评价网络,所述执行者网络用于基于环境状态和目标值来确定执行动作,所述评价网络包括多个子评价网络,每个子评价网络用于基于所述环境状态、所述目标值和所述执行动作来评价所述执行者网络;确定模块,配置为将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络,并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级;采样模块,配置为根据所述每个候选样本数据的采样优先级来对所述候选样本数据集进行采样;训练模块,配置为基于被采样的候选样本数据对所述智能体网络进行训练;控制模块,配置为根据所述经训练的智能体网络中的执行者网络对所述目标对象进行控制。
[0007]根据本申请的第三方面,提供了一种计算设备,包括存储器和处理器,其中所述存储器中存储有计算机程序,所述计算机程序在被所述处理器执行时促使所述处理器执行根据本申请一些实施例的目标对象控制方法的步骤。
[0008]根据本申请的第四方面,提供了一种计算机可读存储介质,其上存储计算机可读指令,所述计算机可读指令在被执行时实现根据本申请一些实施例的目标对象控制方法。
[0009]根据本申请的第五方面,提供了一种计算机程序产品,包括计算机指令,计算机指令在被处理器执行时实现根据本申请一些实施例的目标对象控制方法的步骤。
[0010]在根据本申请一些实施例的目标对象控制方法和装置中,由于在稀疏奖励的环境中,具有高一致性的候选样本数据也具有较低的不确定性,体现了执行动作的较高的学习价值,因此这种数据可以显著提高智能体网络的控制性能,本方法和装置通过设计智能体网络,使用智能体网络的评价网络多个子评价网络的输出值的一致性来衡量每个候选样本数据的采样优先级,以及优先采用高采样优先级的候选样本数据来训练智能体网络,这能够显著提高智能体网络的性能。此外,根据候选样本数据对应的输出值的一致性来回放候选样本数据并不限制智能体网络的应用范围,该训练方法有较高的泛化能力,能够适应于各种环境,且不要求对环境进行修改或设计。
[0011]根据下文描述的实施例,本申请的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本申请的这些和其它优点。
附图说明
[0012]现在将更详细并且参考附图来描述本申请的实施例,其中:图1示出了根据本申请的一些实施例的稀疏奖励的应用场景;图2示出了根据本申请的一些实施例的目标对象控制方法的示例性应用场景;图3示出了根据本申请的一些实施例的目标对象控制方法的流程图;图4示出了根据本申请的一些实施例的智能体网络的示意图;图5示出了根据本申请的一些实施例的确定候选样本数据的采样优先级的流程图;图6示出了根据本申请的一些实施例的目标对象控制方法的示意图;
图7A

7J示出了根据本申请实施例的目标对象控制方法在各种场景下应用的示意图;图8A

8D示出了根据本申请的一些实施例的目标对象控制方法在不同测试场景下的效果示意图;图9示出了根据本申请的一些实施例的目标对象控制装置的示例性结构框图;图10示出了一个示例系统,其包括代表可以实现本文描述的各种方法的一个或多个系统和/或设备的示例计算设备。
具体实施方式
[0013]现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
[0014]此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标对象控制方法,包括:获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集,其中所述多个环境交互数据中的每个环境交互数据至少包括环境状态、目标值、执行动作,所述候选样本数据集包括至少一部分环境交互数据,所述智能体网络包括执行者网络和评价网络,所述执行者网络用于基于环境状态和目标值来确定执行动作,所述评价网络包括多个子评价网络,每个子评价网络用于基于所述环境状态、所述目标值和所述执行动作来评价所述执行者网络;将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络,并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级;根据所述每个候选样本数据的采样优先级来对所述候选样本数据集进行采样;基于被采样的候选样本数据对所述智能体网络进行训练;根据所述经训练的智能体网络中的执行者网络对所述目标对象进行控制。2.根据权利要求1所述的方法,其中所述多个环境交互数据中每个环境交互数据还包括反馈的环境状态;并且其中所述获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选样本数据集,包括:获取来源于智能体网络的多个环境交互数据;对于所述多个环境交互数据中的至少部分环境交互数据中的每个环境交互数据,基于所述环境交互数据的反馈的环境状态来修改所述环境交互数据的目标值;基于经修改的至少部分环境交互数据更新所述多个环境交互数据以确定所述候选样本数据集。3.根据权利要求1或2所述的方法,其中每个子评价网络的输出值为预测的奖励值,并且其中所述将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网络,并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先级,包括:对于所述候选样本数据集中的每个候选样本数据,分别执行下述步骤:将所述候选样本数据分别输入到所述评价网络的多个子评价网络,得到多个预测的奖励值;利用所述候选样本数据对应的多个预测的奖励值的一致性来确定所述候选样本数据的采样优先级。4.根据权利要求3所述的方法,其中所述利用所述候选样本数据对应的多个预测的奖励值的一致性来确定所述候选样本数据的采样优先级,包括:确定所述候选样本数据的多个预测的奖励值的方差,作为所述候选样本数据的方差;根据所述候选样本数据的方差来确定所述候选样本数据的采样优先级,其中所述候选样本数据的采样优先级与相应的方差成负相关。5.根据权利要求4所述的方法,其中所述根据所述候选样本数据的方差来确定所述候选样本数据的采样优先级,包括:将所述候选样本数据集的各个候选样本数据的方差中的最大的方差与所述候选样本数据的方差的差值作为所述候选样本数据的中间采样优先级;
将所述候选样本数据集的各个候选样本数据的中间采样优先级之和作为总采样优先级;基于所述候选样本数据的中间采样优先级与总采样优先级之商来确定所述候选样本数据的采样优先级。6.根据权利要求5所述的方法,其中所述基于所述候选样本数据的中间采样优先级与总采样优先级之商来确定所述候选样本数据的采样优先级,包括:将预设参数作为幂,对所述候选样本数据的中间采样优先级与总采样优先级之商进行幂运算,作为所述候选样本数据的采样优先级,其中所述预设参数大于零。7...

【专利技术属性】
技术研发人员:徐家卫李舒兴袁春韩磊
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1