一种基于多令牌大语言模型的人体运动生成方法和系统技术方案

技术编号:46315536 阅读:9 留言:0更新日期:2025-09-05 18:49
本发明专利技术涉及计算机软件技术领域,公开了一种基于多令牌大语言模型的人体运动生成方法和系统。所采用的人体动作生成模型的构建及训练过程包括将用户输入的文本描述映射为文本特征,并与任务提示词以及文本描述共同输入共享主干网络、多个颈部网络和预测头;将文本描述对应的人体动作编码为动作特征,通过对比学习拉近文本特征与动作特征的距离;将多个动作令牌通过动作解离散反编码技术生成人体动作;基于人类偏好进行基于动态边界的偏好对齐。本发明专利技术通过多令牌预测策略增强对稀疏动作令牌的建模能力,并引入跨模态特征指导实现全局语义对齐。同时,本发明专利技术提出带相似度偏移的人类偏好优化方法来提升生成动作与人类偏好的对齐程度。

【技术实现步骤摘要】

本专利技术涉及计算机软件,具体涉及一种基于多令牌大语言模型的人体运动生成方法和系统


技术介绍

1、近年来,运动生成模型在根据文字描述生成逼真而富有想象力的人体动作方面取得了显著成功。因此,此类人体动作生成技术被广泛应用于各个领域,包括电影制作、虚拟现实等。

2、文本驱动的人体运动生成技术致力于将文本描述转化为三维人体动作序列。该技术的关键挑战在于弥合自然语言与三维人体动作这两种异质模态之间的语义鸿沟。1)早期模型采用基于循环神经网络的架构配合课程学习策略,实现了从文本到运动序列的转换,但生成结果在运动质量和全局位移方面存在明显不足。后来,技术人员通过引入变分自编码器和增强型文本编码器,有效提升了运动序列的多样性。近期,技术人员构建了大规模数据集humanml3d,并提出基于运动长度预测的生成方法和生成式预训练transformer的联合框架,同时设计了基于时序模型的评估器来衡量生成质量。2)随着扩散模型的发展,研究人员基于扩散生成架构实现了多条件输入的运动生成。基于扩散模型的动作生成技术主要分为前向和反向两个过程。在前向过程中,满足高斯分布的本文档来自技高网...

【技术保护点】

1.一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所采用的人体动作生成模型的构建及训练过程包括:

2.根据权利要求1所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述通过文本编码器将用户输入的文本描述映射为文本特征,并与任务提示词以及所述文本描述共同输入基于大语言模型的共享主干网络、多个并行的颈部网络和预测头,预测输出多个动作令牌,具体包括:

3.根据权利要求2所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述基于低秩矩阵构建的微调分支,具体包括:

4.根据权利要求1所述的一种基于多令牌大语言模型的人体运动生成...

【技术特征摘要】

1.一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所采用的人体动作生成模型的构建及训练过程包括:

2.根据权利要求1所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述通过文本编码器将用户输入的文本描述映射为文本特征,并与任务提示词以及所述文本描述共同输入基于大语言模型的共享主干网络、多个并行的颈部网络和预测头,预测输出多个动作令牌,具体包括:

3.根据权利要求2所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述基于低秩矩阵构建的微调分支,具体包括:

4.根据权利要求1所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述通过文本描述与偏好生成动作、厌恶生成动作的语义相似度进行基于动态边界的偏好对齐,对人体动作生成模型进行优化,具体包括:

5.根据权利要求4所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述计算文本描述的文本特征与偏好生成动作的动作特征的语义相似度,计算文本描述的文本特征与厌恶生成动作的动作特征的语义相似度,具体包括:

...

【专利技术属性】
技术研发人员:刘武张勇东陈晓冬鲍谦
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1