一种基于扩散模型的多模态联合手势动作生成方法技术

技术编号：40548676 阅读：14 留言：0更新日期：2024-03-05 19:07

本发明专利技术公开了一种基于扩散模型的多模态联合手势动作生成方法，构建包括编码器、多模态自评估联合网络和轻量化扩散模型，所述编码器包括词向量模型、音频编码器、表情编码器、人脸编码器和身份编码器，所述多模态自评估联合网络包括模态交叉注意力层和激活函数；所述轻量化扩散模型由U‑net网络构成；构建多模态数据；采用编码器对多模态数据进行编码，得到各个单模态特征，将各个单模态特征输入多模态自评估联合网络进行特征融合，将融合的特征输入轻量化扩散模型进行手势动作生成。本发明专利技术通过多模态自评估联合网络自动学习手势动作与各个模态之间的相关性，挖掘各个模态与手势动作之间的关系重要性，使生成的手势动作更丰富、灵活。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与视频生成，具体为一种基于扩散模型的多模态联合手势动作生成方法。

技术介绍

1、手势动作生成可以追溯到人类沟通和表达的起源，在语言出现之前，人们通过肢体动作、面部表情和身体姿势来传递信息和意图；这些非语言的手势被称为手势语言，它们在人类社会中起着重要的交流作用，随着时间的推移，人类逐渐发展出各种不同的手势以满足特定需求和情境，手势可用于表示问候、告别、赞扬、指示、警告、请求等；此外，手势还可以辅助语言表达，增强交流效果，在现代科技的推动下，手势动作的生成也进入了数字化时代，通过使用传感器、摄像头、虚拟现实技术和机器学习算法，可以捕捉和分析人类的手势动作，并将其转化为可识别和理解的数字信号，这使得手势动作生成在虚拟现实、游戏、人机交互、智能设备控制等领域得到了广泛应用；随着机器学习和深度学习技术的进步，基于多模态数据联合生成手势动作成为一项重要的发展趋势，结合语音、情绪、表情、表演者风格等不同模态数据，可以更全面地捕捉和理解用户的手势动作，使生成的手势动作更丰富、更自然。

2、然而现有多模态数据联合手势动作生成方法主要有基于生成式对抗网络的方法、基于矢量量化变分自动编码器方法和基于扩散模型的方法：

3、基于生成式对抗网络的方法将历史手势动作与多模态数据特征直接联合作为输入，以博弈的方式不断优化生成器和鉴别器生成手势动作，然而，不同模态与手势动作之间关系重要性存在差异，这种直接联合的方法未能充分挖掘多模态数据与手势动作之间的关系，而且生成的手势动作趋于平稳；

4、基于矢量量

5、基于扩散模型的方法目前主要研究语音引导手势动作的生成，生成动作具有很好的多样性，但该方法模型训练成本较高。

技术实现思路

1、针对现有技术的不足，本专利技术提供了一种基于扩散模型的多模态联合手势动作生成方法，其目的在于构建了一种多模态自评估联合网络，用于学习手势动作与各个模态之间的相关性，挖掘各模态与手势动作之间的关系，使生成的手势动作更自然、多样；并设计了一种轻量化扩散模型，保留了扩散模型的随机分布与降噪特性，降低了训练成本，使其适用于计算资源有限的设备。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于扩散模型的多模态联合手势动作生成方法，包括以下步骤：

3、步骤s1：构建深度学习模型；

4、所述深度学习模型包括编码器、多模态自评估联合网络和轻量化扩散模型；

5、所述编码器包括词向量模型、音频编码器、表情编码器、人脸编码器和身份编码器；

6、所述多模态自评估联合网络包括模态交叉注意力层和激活函数；

7、所述轻量化扩散模型由u-net网络构成；

8、步骤s2：构建多模态数据，所述多模态数据包括演讲者的手势动作、文本描述数据、音频信息、人脸信息、身份信息和人脸表情信息；

9、步骤s3：采用编码器对多模态数据进行编码，得到各个单模态特征；

10、步骤s4：将各个单模态特征输入多模态自评估联合网络进行特征融合；

11、步骤s5：将融合的特征输入轻量化扩散模型进行手势动作生成。

12、其中，步骤s3中，编码得到各个单模态特征过程为：

13、采用词向量模型将文本描述数据中所有词转化为词向量，通过编码器对词向量进行编码得到文本特征；

14、将原始的音频信息输入音频编码器进行编码得到音频特征；

15、采样52个人脸信息的关键点作为人脸信息数据，采用多个编码块作为人脸编码器对人脸信息数据进行编码，得到人脸特征；

16、以id作为人物身份信息，每位演讲人具有一个身份id，通过身份编码器对身份id进行编码得到身份特征；

17、通过独热编码对人脸表情信息进行编码得出表情类别向量，再通过表情编码器对表情类别向量进行编码得到表情特征。

18、其中，步骤s4中，实现特征融合过程为；

19、通过模态交叉注意力层计算各个单模态特征与手势动作之间的相关性，模态交叉注意力层采用下式表示：

20、；

21、式中，表示模态交叉注意力层，表示手势动作，表示提取的单模态特征包括文本征特征、人脸特征、音频特征、身份特征和表情特征，表示单模态特转置，表示规范值的尺度；

22、将各个单模态特与手势动作之间的相关性输入至激活函数提取与手势动作相关特征；

23、手势动作相关特征采用下式表示：

24、；

25、式中，表示单模态特征与手势进行相关性计算后的特征，表示为模态个数；

26、将所有的单模态特征串接联合得到多模态联合特征z；

27、多模态联合特征z采用下式表示：

28、；

29、式中，z表示多模态联合特征，表示融合，i=1，2，…，n。

30、其中，步骤s5中，手势动作生成过程为：

31、对扩散模型的核心u-net网络进行重构，u-net网络由7层transformer模型构成；

32、步骤s5.1：在训练过程中，逐步对手势动作输入高斯噪声；

33、步骤s5.2：将加噪后的手势动作与多模态联合特征融合，输入至扩散模型中进行训练，获取多模态联合特征z与高斯噪声的关系；

34、步骤s5.3：将多模态数据输入到深度学习模型中不断对编码器、多模态自评估联合网络和轻量化扩散模型的网络参数进行训练，通过轻量化扩散模型中的u-net网络对多模态联合特征z与加噪后的手势动作进行训练获取预测噪声；

35、采用l2损失函数优化u-net网络的网络参数；

36、采用平滑的l1损失函数优化编码器和多模态自评估联合网络的网络参数；

37、步骤s5.4：将训练后的多模态数据分别输入至训练后的编码器中，得到各个单模态特征向量；

38、随机生成一个高斯噪声表示；

39、将获取的各个单模态特征向量输入至训练后的多模态自评估联合网络中，得到多模态联合特征z；

40、步骤s5.5：生成高斯噪声和多模态联合特征z融合，输入至训练后的轻量化扩散模型，通过u-net网络获取到预测噪声，用表示；

41、单次去噪采用下式表示：

42、；

43、式中，表示第－1步的噪声，表示第步通过轻量化扩散模型预测出来的噪声, t表示去噪步数；

44、重复步骤s5.5的计算方式，若t=0时，则生成手势动作。

45、与现有的技术相比，本专利技术具备以下有益效果：

46、（1）本专利技术通过构建一种多模态自评估联合网络，自动学习手势动作与各个模态之间的相关性，挖掘各个模态与手势动作之间的关系重要性，充分发挥多模态中每个模态的潜本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的多模态联合手势动作生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于扩散模型的多模态联合手势动作生成方法，其特征在于：步骤S3中，编码得到各个单模态特征过程为：

3.根据权利要求1所述的一种基于扩散模型的多模态联合手势动作生成方法，其特征在于：步骤S4中，实现特征融合过程为；

4.根据权利要求1所述的一种基于扩散模型的多模态联合手势动作生成方法，其特征在于：步骤S5中，手势动作生成过程为：

【技术特征摘要】

1.一种基于扩散模型的多模态联合手势动作生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于扩散模型的多模态联合手势动作生成方法，其特征在于：步骤s3中，编码得到各个单模态特征过程为：

3.根据...

【专利技术属性】
技术研发人员：刘长红，叶吉，
申请(专利权)人：江西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人