System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于Transformer的扩散模型手语姿态生成方法及系统技术方案_技高网

一种基于Transformer的扩散模型手语姿态生成方法及系统技术方案

技术编号:40316929 阅读:8 留言:0更新日期:2024-02-07 20:59
本发明专利技术公开了一种基于Transformer的扩散模型手语姿态生成方法及系统,涉及视频内容分析领域,方法包括:获取三维连续手语姿态数据;构建基于Transformer的口语文本编码器对口语文本数据之间的上下文关系建模;构建基于Transformer的手语姿态解码器解码三维连续手语姿态数据;组成手语扩散模型并进行训练,通过反向推理对已加噪的手语姿态数据不断去噪,恢复原始三维手语姿态,实现三维手语姿态的生成;本发明专利技术解决了手语数据集稀缺问题;进一步地提升了方法的长序列编码能力,较好地解决了口语文本和手语姿态的对齐问题;有效地利用解码器扩散生成自然连续的三维手语姿态动作,不仅生成后的结果符合真实的手语姿势,而且支持任意长度的手语姿态的生成。

【技术实现步骤摘要】

本专利技术涉及视频内容分析领域,尤其涉及一种基于transformer的扩散模型手语姿态生成方法及系统。


技术介绍

1、近年来,随着实时人机交互技术的发展,三维连续手语姿态生成不仅有利于改善聋哑人与健听人之间的双向交流,而且在元宇宙中的虚拟现实、游戏和教育等领域有着广泛的应用。例如基于口语生成聋哑主播、家教和游戏人物等虚拟人体动作姿态,以满足游戏,新闻媒体,教育等领域的虚拟角色的交互需求。

2、因此,亟需连续的三维手语姿态生成方法和系统来实现手语姿势动作的生成;相对于连续手语姿态识别,连续手语姿态生成是一个逆过程,它将口语句子转换为手语的视觉表示。该任务不仅要求深度学习模型理解口语句子的语义,还要生成相应的手语手势。因此,在模式识别和计算机视觉任务中,三维连续手语姿态生成一直是一个具有挑战性的任务。它涉及到自然语言处理、人体姿态估计、视频生成等许多流行的
鉴于收集三维连续手语姿态运动数据相当昂贵和耗时,现有的大多数工作都是研究生成二维动态手势动作。但是这种生成的二维手势动作并不能直接适用于需要三维视觉的元宇宙数字生活空间,如三维游戏和虚拟与现实(vr)等。如果直接使用二维视频来获得三维参数,这可能导致不可靠的结果。这是因为生成的三维数据质量受到三维重建技术精度的限制,不能捕捉到三维数据的细微变化。所以,目前公开可用的三维连续手语运动数据是有限的。

3、其次,三维连续手语姿态动作生成方法可以分为基于口语文本生成三维连续手语姿态和基于手语词生成三维连续手语姿态。基于口语文本生成三维连续手语姿态是一种使用端到端的方法,直接将口语文本转换为连续手语,而基于手语词生成连续手语姿态之前需要应用中级监督,将口语文本句子标记为手语词,而考虑标记手语词需要一定的人工成本;此外,基于transformer的方法已成为理解人体动作姿态的重要方法,为三维连续手语姿态生成任务铺平了道路。然而,目前基于transformer的自回归模型是基于前一帧生成下一个姿态帧,这很可能导致预测误差的时间传播;并且,基于transformer的手语姿态生成方法仍然没有进一步探索如何有效地利用手语姿态数据中长期时空相关性的上下文信息以及端到端地实现口语-手语模式的对齐,以获得令人满意的生成结果。


技术实现思路

1、鉴于上述存在的问题,提出了本专利技术。

2、因此,本专利技术解决的技术问题是:如何有效地利用手语姿态数据中长期时空相关性的上下文信息以及端到端地实现口语-手语模式的对齐,以获得令人满意的生成结果。

3、为解决上述技术问题,本专利技术提供如下技术方案:

4、第一方面,本专利技术实施例提供了一种基于transformer的扩散模型手语姿态生成方法,包括:

5、利用姿势检测器和骨骼校正器从视频中获取三维连续手语姿态数据;

6、依据手语姿态数据,构建一个基于transformer的口语文本编码器对口语文本数据之间的上下文关系建模,形成文本语义特征;

7、依据手语姿态数据,构建一个基于transformer的手语姿态解码器来解码所述三维连续手语姿态数据;

8、由所述口语文本编码器和所述手语姿态解码器组成手语扩散模型并进行训练;

9、基于训练好的手语扩散模型,通过反向推理对已加噪的手语姿态数据不断去噪,恢复原始三维手语姿态,实现三维手语姿态的生成。

10、作为基于transformer的扩散模型手语姿态生成方法的一种优选方案,其中:

11、所述利用姿势检测器和骨骼校正器从手语视频中获取三维连续手语姿态数据包括:

12、利用姿势检测器从手语视频中提取手语演示者的二维姿势关节点坐标数据;

13、利用骨骼校正器将所述二维姿势关节点坐标数据转换为三维姿势关节点坐标数据,并视为真实的三维连续手语姿态样本数据。

14、作为基于transformer的扩散模型手语姿态生成方法的一种优选方案,其中:

15、所述构建一个基于transformer的手语姿态解码器来解码所述三维连续手语姿态数据包括:

16、利用周期性位置编码嵌入时间位置信息;

17、构建线性偏置多头自注意函数,提取长期的手语姿态动作时空关系;

18、构建线性偏置跨模态多头注意函数,对齐口语-手语模式;

19、利用信息转换器将所述的口语文本信息和扩散时间步长信息嵌入到手语姿态特征中,动态指导手语姿态的解码过程。

20、作为基于transformer的扩散模型手语姿态生成方法的一种优选方案,其中:

21、所述线性偏置多头自注意函数包括3个线性层,2个softmax层,时间偏差b:

22、线性偏置多头自注意函数层接受具有周期性编码的手语序列其中n和dm分别表示序列中元素的数量和注意力多头切分后的特征维度,m是多头注意力函数的头数,t代表当前时间步长;利用线性偏置多头自注意函数层对特征向量进行多头自注意力操作:

23、

24、

25、

26、

27、

28、其中,wk,wv和wq是线性变换权值,bk,bv和bq是线性偏置,mk,mv,mq是计算操作中的矩阵;对b和mv和mk进行矩阵元素乘法,生成全局特征图对mg和mq进行矩阵元素乘法,生成线性偏置多头自注意函数层的输出xo;代表矩阵相乘,此处b是一个在上三角形中具有负无穷大的矩阵;引入一个周期的超参数p,将i和j定义为b的索引,1≤i≤t,1≤j≤t,时间偏差bi,j表述为:

29、

30、作为基于transformer的扩散模型手语姿态生成方法的一种优选方案,其中:

31、所述线性偏置跨模态多头注意函数包括3个线性层(linear),2个softmax层,对齐偏置b′:

32、相比线性偏置多头自注意函数,线性偏置跨模态多头注意函数将mk和mv计算中的替换为口语文本特征,在查询关键注意力得分中添加了对齐偏置b′i,j,1≤i≤t;1≤j≤kt,表示为:

33、

34、作为基于transformer的扩散模型手语姿态生成方法的一种优选方案,其中:

35、所述由所述口语文本编码器和所述手语姿态解码器组成手语扩散模型并进行训练包括:

36、将训练过程建模为一个马尔可夫噪声过程,包括不断添加小量噪声通过一个固定的马尔可夫链m为生成手语姿态的长度,经过固定的t时间步骤后,产生一系列噪声逐渐增加的数据直到分布接近高斯分布n(1;i),维度与相同,表示原始数据,而成为一个纯噪声样本;根据给定的超参数αt前向过程被定义为:

37、

38、

39、在给定每个真实运动的条件下,使用重新参数化的βt=1-αt,将简化为:

40、

41、其中超参数∈~n(0:i),不需要预测基于姿态样本噪声∈,直接生成状态本文档来自技高网...

【技术保护点】

1.一种基于Transformer的扩散模型手语姿态生成方法,其特征在于,包括:

2.如权利要求1所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,所述利用姿势检测器和骨骼校正器从手语视频中获取三维连续手语姿态数据包括:

3.如权利要求1或2所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,所述构建一个基于Transformer的手语姿态解码器来解码所述三维连续手语姿态数据包括:

4.如权利要求3所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,包括:

5.如权利要求4所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,包括:

6.如权利要求5所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,所述由所述口语文本编码器和所述手语姿态解码器组成手语扩散模型并进行训练包括:

7.如权利要求6所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,所述基于训练好的手语扩散模型,通过反向推理对已加噪的手语姿态数据不断去噪,恢复原始三维手语姿态,实现三维手语姿态的生成,包括:

8.一种采用如权利要求1~7任一所述的基于Transformer的扩散模型手语姿态生成系统,其特征在于,包括:

9.一种计算设备,包括:

10.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述基于Transformer的扩散模型手语姿态生成方法的步骤。

...

【技术特征摘要】

1.一种基于transformer的扩散模型手语姿态生成方法,其特征在于,包括:

2.如权利要求1所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,所述利用姿势检测器和骨骼校正器从手语视频中获取三维连续手语姿态数据包括:

3.如权利要求1或2所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,所述构建一个基于transformer的手语姿态解码器来解码所述三维连续手语姿态数据包括:

4.如权利要求3所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,包括:

5.如权利要求4所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,包括:

6.如权利要求5所述的基于tran...

【专利技术属性】
技术研发人员:梁吴艳徐小龙
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1