人体模型的控制方法、装置、电子设备以及存储介质制造方法及图纸

技术编号：21686623 阅读：41 留言：0更新日期：2019-07-24 14:48

本申请提出一种人体模型的控制方法、装置、电子设备以及存储介质，其中，方法包括：通过获取用于指示人体模型状态的特征信息，将特征信息输入行走模型的多个策略网络，得到各策略网络输出的控制信息，采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分，根据评分，从各策略网络输出的控制信息中确定目标控制信息，根据目标控制信息，控制人体模型。由于行走模型相比现有技术中的强化学习算法，具有数据利用率高、鲁棒性强的特点，因此，通过行走模型的多个价值网络对每一个策略网络输出的控制信息进行评分，进而根据评分确定的目标控制信息控制人体模型，能够更加准确的控制人体模型，从而使得人体模型保持正常的姿态行走。

Control methods, devices, electronic devices and storage media for human models

全部详细技术资料下载

【技术实现步骤摘要】
人体模型的控制方法、装置、电子设备以及存储介质
本申请涉及自然语言处理
，尤其涉及一种人体模型的控制方法、装置、电子设备以及存储介质。
技术介绍
随着计算机技术的快速发展，采用计算机软件对人体肌肉骨骼模型进行建模仿真成为一种主流。经过多年的发展，国外的专家学者先后开发出SIMM、AnyBody、LifeMod(与Adams无缝连接)、OpenSim和MSMS等人体运动分析仿真软件。近年来，随着强化学习和深度学习的发展，出现了基于连续控制的强化学习算法，训练一个深度神经网络的策略模型来预测控制向量。例如Off-Policy类别的深度确定性策略梯度算法(DeepDeterministicPolicyGradient，简称DDPG)，或On-Policy类别的近端策略优化算法(ProximalPolicyOptimization，简称PPO)。但是，现有的强化学习算法在人体模型训练时，存在鲁棒性差、样本利用低等缺点。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请提出一种人体模型的控制方法、装置、电子设备以及存储介质，以解决现有技术中对人体模型训练的强化学习算法存在鲁棒性差、样本利用低的技术问题。本申请第一方面实施例提出了一种人体模型的控制方法，包括：获取用于指示人体模型状态的特征信息；将所述特征信息输入行走模型的多个策略网络，得到各策略网络输出的控制信息；所述多个策略网络在训练过程中采用了不同的学习率；采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分；所述评分，用于指示采用相应控制信息进行控制后的人体模型符合设...

【技术保护点】
1.一种人体模型的控制方法，其特征在于，所述方法包括以下步骤：获取用于指示人体模型状态的特征信息；将所述特征信息输入行走模型的多个策略网络，得到各策略网络输出的控制信息；所述多个策略网络在训练过程中采用了不同的学习率；采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分；所述评分，用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率；根据所述评分，从各策略网络输出的控制信息中确定目标控制信息；根据所述目标控制信息，控制人体模型。

【技术特征摘要】
1.一种人体模型的控制方法，其特征在于，所述方法包括以下步骤：获取用于指示人体模型状态的特征信息；将所述特征信息输入行走模型的多个策略网络，得到各策略网络输出的控制信息；所述多个策略网络在训练过程中采用了不同的学习率；采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分；所述评分，用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率；根据所述评分，从各策略网络输出的控制信息中确定目标控制信息；根据所述目标控制信息，控制人体模型。2.根据权利要求1所述的控制方法，其特征在于，所述价值网络为多个，所述多个价值网络在训练过程中采用了不同的学习率；所述采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分，包括：将所述特征信息、一个控制信息以及所述设定行进速度作为输入信息，输入所述多个价值网络中，得到各价值网络对相应控制信息的评分。3.根据权利要求2所述的控制方法，其特征在于，所述根据所述评分，从各策略网络输出的控制信息中确定目标控制信息，包括：对每一个策略网络输出的控制信息，计算多个价值网络对相应控制信息的评分之和；将所述评分之和为最大的控制信息，作为所述目标控制信息。4.根据权利要求1-3任一项所述的控制方法，其特征在于，所述获取用于指示人体模型状态的特征信息之前，还包括：按照设定行进速度取值从大到小的顺序，对所述行走模型进行训练。5.根据权利要求4所述的控制方法，其特征在于，所述对所述行走模型进行训练，包括：向仿真客户端发送样本控制信息；从仿真客户端获取样本特征信息和反馈信息；其中，所述样本特征信息，是所述仿真客户端根据所述样本控制信息对所述仿真客户端运行的人体模型进行控制后生成的；所述反馈信息，用于指示所述样本特征信息与设定行进速度之间的差异；采用所述样本特征信息、所述反馈信息和所述样本控制信息，对所述行走模型进行训练。6.根据权利要求5所述的控制方法，其特征在于，所述仿真客户端为多个。7.根据权利要求5所述的控制方法，其特征在于，所述反馈信息是采用奖励函数计算得到的；所述设定行进速度按照取值从大到小划分为多个训练阶段；各训练阶段具有对应的奖励函数。8.根据权利要求7所述的控制方法，其特征在于，所述多个训练阶段包括设定行进速度递减的第一阶段、第二阶段和第三阶段；其中，所述第一阶段的奖励函数，是根据关节受力信息和相邻时刻人体模型左右脚的位移量确定的；所述第二阶段的奖励函数，是根据人体模型行进速度与设定行进速度之间的差异和样本控制信息的L2范数确定的；所述第三阶段的奖励函数，是根据人体模型行进速度与设定行进速度之间的差异和肌肉激活量确定的。9.一种人体模型的控制装置，其特征在于，所述装置包括：获取模块，用于获取用于指示人体模型状态的特征信息；输入模块，用于将所述特征信息输入行...

【专利技术属性】
技术研发人员：周波，曾宏生，王凡，何径舟，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人