人体模型的控制方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:21686623 阅读:41 留言:0更新日期:2019-07-24 14:48
本申请提出一种人体模型的控制方法、装置、电子设备以及存储介质,其中,方法包括:通过获取用于指示人体模型状态的特征信息,将特征信息输入行走模型的多个策略网络,得到各策略网络输出的控制信息,采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分,根据评分,从各策略网络输出的控制信息中确定目标控制信息,根据目标控制信息,控制人体模型。由于行走模型相比现有技术中的强化学习算法,具有数据利用率高、鲁棒性强的特点,因此,通过行走模型的多个价值网络对每一个策略网络输出的控制信息进行评分,进而根据评分确定的目标控制信息控制人体模型,能够更加准确的控制人体模型,从而使得人体模型保持正常的姿态行走。

Control methods, devices, electronic devices and storage media for human models

【技术实现步骤摘要】
人体模型的控制方法、装置、电子设备以及存储介质
本申请涉及自然语言处理
,尤其涉及一种人体模型的控制方法、装置、电子设备以及存储介质。
技术介绍
随着计算机技术的快速发展,采用计算机软件对人体肌肉骨骼模型进行建模仿真成为一种主流。经过多年的发展,国外的专家学者先后开发出SIMM、AnyBody、LifeMod(与Adams无缝连接)、OpenSim和MSMS等人体运动分析仿真软件。近年来,随着强化学习和深度学习的发展,出现了基于连续控制的强化学习算法,训练一个深度神经网络的策略模型来预测控制向量。例如Off-Policy类别的深度确定性策略梯度算法(DeepDeterministicPolicyGradient,简称DDPG),或On-Policy类别的近端策略优化算法(ProximalPolicyOptimization,简称PPO)。但是,现有的强化学习算法在人体模型训练时,存在鲁棒性差、样本利用低等缺点。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种人体模型的控制方法、装置、电子设备以及存储介质,以解决现有技术中对人体模型训练的强化学习算法存在鲁棒性差、样本利用低的技术问题。本申请第一方面实施例提出了一种人体模型的控制方法,包括:获取用于指示人体模型状态的特征信息;将所述特征信息输入行走模型的多个策略网络,得到各策略网络输出的控制信息;所述多个策略网络在训练过程中采用了不同的学习率;采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分;所述评分,用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率;根据所述评分,从各策略网络输出的控制信息中确定目标控制信息;根据所述目标控制信息,控制人体模型。作为本申请第一种可能的实现方式,所述价值网络为多个,所述多个价值网络在训练过程中采用了不同的学习率;所述采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分,包括:将所述特征信息、一个控制信息以及所述设定行进速度作为输入信息,输入所述多个价值网络中,得到各价值网络对相应控制信息的评分。作为本申请第二种可能的实现方式,所述根据所述评分,从各策略网络输出的控制信息中确定目标控制信息,包括:对每一个策略网络输出的控制信息,计算多个价值网络对相应控制信息的评分之和;将所述评分之和为最大的控制信息,作为所述目标控制信息。作为本申请第三种可能的实现方式,所述获取用于指示人体模型状态的特征信息之前,还包括:按照设定行进速度取值从大到小的顺序,对所述行走模型进行训练。作为本申请第四种可能的实现方式,所述对所述行走模型进行训练,包括:向仿真客户端发送样本控制信息;从仿真客户端获取样本特征信息和反馈信息;其中,所述样本特征信息,是所述仿真客户端根据所述样本控制信息对所述仿真客户端运行的人体模型进行控制后生成的;所述反馈信息,用于指示所述样本特征信息与设定行进速度之间的差异;采用所述样本特征信息、所述反馈信息和所述样本控制信息,对所述行走模型进行训练。作为本申请第五种可能的实现方式,所述仿真客户端为多个。作为本申请第六种可能的实现方式,所述反馈信息是采用奖励函数计算得到的;所述设定行进速度按照取值从大到小划分为多个训练阶段;各训练阶段具有对应的奖励函数。作为本申请第七种可能的实现方式,所述多个训练阶段包括设定行进速度递减的第一阶段、第二阶段和第三阶段;其中,所述第一阶段的奖励函数,是根据关节受力信息和相邻时刻人体模型左右脚的位移量确定的;所述第二阶段的奖励函数,是根据人体模型行进速度与设定行进速度之间的差异和样本控制信息的L2范数确定的;所述第三阶段的奖励函数,是根据人体模型行进速度与设定行进速度之间的差异和肌肉激活量确定的。本申请实施例的人体模型的控制方法,通过获取用于指示人体模型状态的特征信息,将特征信息输入行走模型的多个策略网络,得到各策略网络输出的控制信息,其中,多个策略网络在训练过程中采用了不同的学习率;采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分,其中,评分,用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率,根据评分,从各策略网络输出的控制信息中确定目标控制信息,根据目标控制信息,控制人体模型。由于行走模型相比现有技术中的强化学习算法,具有数据利用率高、鲁棒性强特定,因此,通过行走模型的多个价值网络对每一个策略网络输出的控制信息进行评分,进而根据评分确定的目标控制信息控制人体模型,能够更加准确的控制人体模型,从而使得人体模型保持正常的姿态行走。本申请第二方面实施例提出了一种人体模型的控制装置,包括:获取模块,用于获取用于指示人体模型状态的特征信息;输入模块,用于将所述特征信息输入行走模型的多个策略网络,得到各策略网络输出的控制信息;所述多个策略网络在训练过程中采用了不同的学习率;评分模块,用于采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分;所述评分,用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率;确定模块,用于根据所述评分,从各策略网络输出的控制信息中确定目标控制信息;控制模块,用于根据所述目标控制信息,控制人体模型。本申请实施例的人体模型的控制装置,通过获取用于指示人体模型状态的特征信息,将特征信息输入行走模型的多个策略网络,得到各策略网络输出的控制信息,其中,多个策略网络在训练过程中采用了不同的学习率;采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分,其中,评分,用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率,根据评分,从各策略网络输出的控制信息中确定目标控制信息,根据目标控制信息,控制人体模型。由于行走模型相比现有技术中的强化学习算法,具有数据利用率高、鲁棒性强特定,因此,通过行走模型的多个价值网络对每一个策略网络输出的控制信息进行评分,进而根据评分确定的目标控制信息控制人体模型,能够更加准确的控制人体模型,从而使得人体模型保持正常的姿态行走。本申请第三方面实施例提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述实施例中所述的人体模型的控制方法。本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中所述的人体模型的控制方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本申请实施例所提供的一种人体模型的控制方法的流程示意图;图2为本申请实施例提供的一种策略网络的结构示例图;图3为本申请实施例提供的一种价值网络的结构示例图;图4为本申请实施例提供的一种行走模型训练方法的流程示意图;图5为本申请实施例提供的一种行走模型训练方法的结构示例图;图6为本申请实施例提供的一种人体模型的控制装置的结构示意图;图7示出了适于用来实现本申请实施方式的示例性计算机设备的框图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终本文档来自技高网...

【技术保护点】
1.一种人体模型的控制方法,其特征在于,所述方法包括以下步骤:获取用于指示人体模型状态的特征信息;将所述特征信息输入行走模型的多个策略网络,得到各策略网络输出的控制信息;所述多个策略网络在训练过程中采用了不同的学习率;采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分;所述评分,用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率;根据所述评分,从各策略网络输出的控制信息中确定目标控制信息;根据所述目标控制信息,控制人体模型。

【技术特征摘要】
1.一种人体模型的控制方法,其特征在于,所述方法包括以下步骤:获取用于指示人体模型状态的特征信息;将所述特征信息输入行走模型的多个策略网络,得到各策略网络输出的控制信息;所述多个策略网络在训练过程中采用了不同的学习率;采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分;所述评分,用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率;根据所述评分,从各策略网络输出的控制信息中确定目标控制信息;根据所述目标控制信息,控制人体模型。2.根据权利要求1所述的控制方法,其特征在于,所述价值网络为多个,所述多个价值网络在训练过程中采用了不同的学习率;所述采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分,包括:将所述特征信息、一个控制信息以及所述设定行进速度作为输入信息,输入所述多个价值网络中,得到各价值网络对相应控制信息的评分。3.根据权利要求2所述的控制方法,其特征在于,所述根据所述评分,从各策略网络输出的控制信息中确定目标控制信息,包括:对每一个策略网络输出的控制信息,计算多个价值网络对相应控制信息的评分之和;将所述评分之和为最大的控制信息,作为所述目标控制信息。4.根据权利要求1-3任一项所述的控制方法,其特征在于,所述获取用于指示人体模型状态的特征信息之前,还包括:按照设定行进速度取值从大到小的顺序,对所述行走模型进行训练。5.根据权利要求4所述的控制方法,其特征在于,所述对所述行走模型进行训练,包括:向仿真客户端发送样本控制信息;从仿真客户端获取样本特征信息和反馈信息;其中,所述样本特征信息,是所述仿真客户端根据所述样本控制信息对所述仿真客户端运行的人体模型进行控制后生成的;所述反馈信息,用于指示所述样本特征信息与设定行进速度之间的差异;采用所述样本特征信息、所述反馈信息和所述样本控制信息,对所述行走模型进行训练。6.根据权利要求5所述的控制方法,其特征在于,所述仿真客户端为多个。7.根据权利要求5所述的控制方法,其特征在于,所述反馈信息是采用奖励函数计算得到的;所述设定行进速度按照取值从大到小划分为多个训练阶段;各训练阶段具有对应的奖励函数。8.根据权利要求7所述的控制方法,其特征在于,所述多个训练阶段包括设定行进速度递减的第一阶段、第二阶段和第三阶段;其中,所述第一阶段的奖励函数,是根据关节受力信息和相邻时刻人体模型左右脚的位移量确定的;所述第二阶段的奖励函数,是根据人体模型行进速度与设定行进速度之间的差异和样本控制信息的L2范数确定的;所述第三阶段的奖励函数,是根据人体模型行进速度与设定行进速度之间的差异和肌肉激活量确定的。9.一种人体模型的控制装置,其特征在于,所述装置包括:获取模块,用于获取用于指示人体模型状态的特征信息;输入模块,用于将所述特征信息输入行...

【专利技术属性】
技术研发人员:周波曾宏生王凡何径舟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1