一种开放语义的精细化人体动作生成方法技术

技术编号：46210312 阅读：7 留言：0更新日期：2025-08-26 19:15

本发明专利技术公开了一种具备开放语义感知能力的精细化人体动作生成方法的方法，该方法包含如下步骤：(1)在多个预先定义的人体区域内获取局部姿态特征，并训练得到人体动作离散变分自编码器；(2)通过本地部署的大语言模型将输入文本描述拆分为针对各人体区域的描述子文本；(3)利用人体动作扩散模型在离散隐空间中完成人体动作扩散生成；(4)通过人体动作离散变分自编码器中的解码器将人体动作还原到三维空间，并完成人体动作的全局优化。本发明专利技术提出的方法能够对不同语义层次的输入文本描述进行理解，将其中对不同人体区域的动作指示对应到各自的人体局部动作中，生成在局部区域内更加精细，且能在全局层面保持与输入文本一致的人体动作。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种开放语义的精细化人体动作生成方法，具体属于计算机视觉领域中的文本驱动的人体动作生成领域。

技术介绍

1、由计算机控制的自动化机器人已经是人类社会中不可忽视的一种存在，为社会的生产工作提供了极大的助益。除此以外，机器人也逐渐开始承担娱乐化的角色，向更加真实、拟人的方向发展。在此背景下，如何利用计算机产生真实、丰富且与预期相同的人体动作逐渐受到学术界的关注。除了能够驱动现实世界的人型机器人以外，计算机生成的人体的动作还可用于控制虚拟角色的运动，在虚拟现实系统和游戏等领域具有非常广阔的应用前景。作为一种直观、高自由度且具有丰富表达能力的控制条件，文字能够从多个层次对人体的运动进行描述，基于自然语言文本的人体动作生成任务也成为了近年来的热门研究方向之一。对于文本驱动的人体动作生成任务，其重点在于如何捕捉到输入文本中可能蕴含的各个语义级别的信息，并将其对应到所生成的人体动作上，使得生成的动作同时具有精细、真实和连贯的特点，且能够准确反映输入文本条件的指示内容。

2、对于第一个研究重点，即如何生成出高质量的人体动作序列...

【技术保护点】

1.一种开放语义的精细化人体动作生成方法，其特征在于，包括人体局部动作离散变分自编码器的训练、基于大语言模型的文本描述拆分、利用人体动作离散化扩散模型的扩散生成以及人体动作的全局优化，具体包括如下步骤：

2.根据权利要求1所述的一种开放语义的精细化人体动作生成方法，其特征在于，在训练阶段，一段文本描述S对应了一个人体动作序列X＝[x1,x2,…,xT]，其中T为序列长度，x＝[jroot,j1,j2,…,jJ-1,cf]为单帧人体动作，为根节点的运动标记，为各子节点的运动标记，表示人体脚部与地面的接触状态，J为预先定义的人体关键点个数；具体而言，根节点和子节点的运动标记的内容...

【技术特征摘要】

2.根据权利要求1所述的一种开放语义的精细化人体动作生成方法，其特征在于，在训练阶段，一段文本描述s对应了一个人体动作序列x＝[x1,x2,…,xt]，其中t为序列长度，x＝[jroot,j1,j2,…,jj-1,cf]为单帧人体动作，为根节点的运动标记，为各子节点的运动标记，表示人体脚部与地面的接触状态，j为预先定义的人体关键点个数；具体而言，根节点和子节点的运动标记的内容包括

3.根据权利要求2所述的一种开放语义的精细化人体动作生成方法，其特征在于，将人体划分为多个局部区域，并利用各区域的局部特征进行动作的隐空间编码；对于一个完整的人体，将其划分为六个区域，包括头部、躯干、左手臂、右手臂、左腿和右腿，因此人体的j个关键点都属于这六个区域之一；由于三种不同的运动标记具有各自不同的维度，因此首先将其映射到同一空间，再引入局部自注意力；对于三种类别的运动标记，通过不同维度的映射矩阵将其投影到相同维度d，得到其嵌入表示：

4.根据权利要求3所述的一种开放语义的精细化人体动作生成方法，其特征在于，借助大语言模型对开放语义文本的理解能力对输入的文本描述进行预处理，使得输入文本描述能够具有更加统一的长度和语义等级：

5.根据权利要求4所述的一种开放语义的精细化人体动作生成方法，其特征在于，通过对大语言模型输入预先设定的提示词信息来帮助其对文本描述进行处理，并通过少样本学习的思路对大语言模型的文本处理过程进行指导，其中，所用提示词是要求大语言模型将一段给定的动作文本描述s拆分为六个人体区域内的描述子文本spart，提示词的具体内容包括对该描述文本处理任务的详细描述、对人体区域的划分标准、对输出格式的要求以及几个典型的案例；若输入的文本描述对应的动作序列为人体全局的动作，则拆分后所有区域的描述子文本都应当使用该动作进行描述。

6.根据权利要求5所述的一种开放语义的精细化人体动作生成方法，其特征在于，使用以下方法对来自大语言模型的子文本拆分结果进行优化：第一，通过不断地强化输出格式的要求以确保大语言模型按照预期的格式进行输出，包括各个...

【专利技术属性】
技术研发人员：杨万扣，张浩然，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人