【技术实现步骤摘要】
本专利技术涉及计算机软件,具体涉及一种基于多令牌大语言模型的人体运动生成方法和系统。
技术介绍
1、近年来,运动生成模型在根据文字描述生成逼真而富有想象力的人体动作方面取得了显著成功。因此,此类人体动作生成技术被广泛应用于各个领域,包括电影制作、虚拟现实等。
2、文本驱动的人体运动生成技术致力于将文本描述转化为三维人体动作序列。该技术的关键挑战在于弥合自然语言与三维人体动作这两种异质模态之间的语义鸿沟。1)早期模型采用基于循环神经网络的架构配合课程学习策略,实现了从文本到运动序列的转换,但生成结果在运动质量和全局位移方面存在明显不足。后来,技术人员通过引入变分自编码器和增强型文本编码器,有效提升了运动序列的多样性。近期,技术人员构建了大规模数据集humanml3d,并提出基于运动长度预测的生成方法和生成式预训练transformer的联合框架,同时设计了基于时序模型的评估器来衡量生成质量。2)随着扩散模型的发展,研究人员基于扩散生成架构实现了多条件输入的运动生成。基于扩散模型的动作生成技术主要分为前向和反向两个过程。在前向过
...【技术保护点】
1.一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所采用的人体动作生成模型的构建及训练过程包括:
2.根据权利要求1所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述通过文本编码器将用户输入的文本描述映射为文本特征,并与任务提示词以及所述文本描述共同输入基于大语言模型的共享主干网络、多个并行的颈部网络和预测头,预测输出多个动作令牌,具体包括:
3.根据权利要求2所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述基于低秩矩阵构建的微调分支,具体包括:
4.根据权利要求1所述的一种基于多令牌大语
...【技术特征摘要】
1.一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所采用的人体动作生成模型的构建及训练过程包括:
2.根据权利要求1所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述通过文本编码器将用户输入的文本描述映射为文本特征,并与任务提示词以及所述文本描述共同输入基于大语言模型的共享主干网络、多个并行的颈部网络和预测头,预测输出多个动作令牌,具体包括:
3.根据权利要求2所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述基于低秩矩阵构建的微调分支,具体包括:
4.根据权利要求1所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述通过文本描述与偏好生成动作、厌恶生成动作的语义相似度进行基于动态边界的偏好对齐,对人体动作生成模型进行优化,具体包括:
5.根据权利要求4所述的一种基于多令牌大语言模型的人体运动生成方法,其特征在于,所述计算文本描述的文本特征与偏好生成动作的动作特征的语义相似度,计算文本描述的文本特征与厌恶生成动作的动作特征的语义相似度,具体包括:
...【专利技术属性】
技术研发人员:刘武,张勇东,陈晓冬,鲍谦,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。