一种可与三维场景目标及用户交互的人体动作生成方法技术

技术编号：41190384 阅读：21 留言：0更新日期：2024-05-07 22:21

一种可与三维场景目标及用户交互的人体动作生成方法，包括：输入场景、交互语言描述以及训练动作序列；对场景进行特征提取；对交互语言描述进行语义特征提取；对人体动作进行表示和进行特征编码；将提取的场景特征、语义特征和人体动作特征进行融合，并送入迭代优化轨迹解码器；利用双Transformer结构迭代地学习场景中的路径规划和文本控制的人类动作序列；迭代优化轨迹解码器根据用户需求和选择的场景生成对应的3D场景中的动作序列，并通过语言控制的三维场景动作自适应模块，实现人机场景交互的可控文本场景动作生成。本方法可在给定的3D场景中，从自然语言文本描述中生成准确定位和个性化的人体运动序列，实现用户友好、个性化的人机场景交互生成任务。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及3d数字人生成技术，特别是涉及一种可与三维场景目标及用户交互的人体动作生成方法。

技术介绍

1、在现实世界的场景中，人们使用感官感知周围的环境信息，并可以根据大脑发出的指令与现实生活中的场景自然互动。因此，如何在数字世界中模拟人与环境的关系是计算机视觉中的一个重要课题。目前，自然可控的人机场景交互(hsi)生成在vr/ar内容创作、动画制作等领域具有重要价值和众多应用。尽管有基于交互的方法，但3d人体生成中的大多数研究工作都集中在从场景、音乐、文本和先前运动生成人体运动，忽略了与目标对象以及用户交互的方面。

2、humanise和scenediffuser主要关注粗粒度的动作生成(仅限于运动类别)，后者进一步扩展了场景的整体规划。然而，这两种方法都忽略了与目标对象的直接交互，其中交互应该与对象的类别、方向和位置有关。此外，这些方法只关注生成类别特殊动作。尽管humanise和scenediffuser分别利用采样策略和扩散模型来生成尽可能多样化的动作，但这些方法很可能会生成无法控制的动作，并且无法与用户交互。随...

【技术保护点】

1.一种可与三维场景目标及用户交互的人体动作生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的人体动作生成方法，其特征在于，步骤S2中，使用PoinTransformer模型对场景点云进行特征提取；使用RoBert模型对交互语言描述进行语义特征提取；使用SMPL-X参数模型对人体动作进行表示，并利用Transformer模型进行特征编码；通过多模态条件编码将场景特征、语义特征和人体动作特征融合在一起。

3.如权利要求1所述的人体动作生成方法，其特征在于，步骤S3中，学习过程中，对输出的动作序列进行损失计算，通过迭代优化轨迹解码器梯度回传，更新网络参数。<...

【技术特征摘要】

1.一种可与三维场景目标及用户交互的人体动作生成方法，其特征在于，包括如下步骤：

2.如权利要求1所述的人体动作生成方法，其特征在于，步骤s2中，使用pointransformer模型对场景点云进行特征提取；使用robert模型对交互语言描述进行语义特征提取；使用smpl-x参数模型对人体动作进行表示，并利用transformer模型进行特征编码；通过多模态条件编码将场景特征、语义特征和人体动作特征融合在一起。

3.如权利要求1所述的人体动作生成方法，其特征在于，步骤s3中，学习过程中，对输出的动作序列进行损失计算，通过迭代优化轨迹解码器梯度回传，更新网络参数。

4.如权利要求1至3任一项所述的人体动作生成方法，其特征在于，所述双transformer结构包括运动transformer模块和轨迹transformer模块；步骤s3中，迭代优化轨迹解码器学习运动轨迹具体包括：

5.如权利要求1至4任一项所述的人体动作生成方法，其特征在于，步骤s4中，所述语言控制的三维场景动作自适应模块利用风格控制器和动作微调模块实现个性化的人机场景交互生成。

6.如权利要求1至5任一项所述的人体动...

【专利技术属性】
技术研发人员：张亚超，马弋弋，李秀，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人