一种基于Transformer的扩散模型手语姿态生成方法及系统技术方案

技术编号:40316929 阅读:37 留言:0更新日期:2024-02-07 20:59
本发明专利技术公开了一种基于Transformer的扩散模型手语姿态生成方法及系统,涉及视频内容分析领域,方法包括:获取三维连续手语姿态数据;构建基于Transformer的口语文本编码器对口语文本数据之间的上下文关系建模;构建基于Transformer的手语姿态解码器解码三维连续手语姿态数据;组成手语扩散模型并进行训练,通过反向推理对已加噪的手语姿态数据不断去噪,恢复原始三维手语姿态,实现三维手语姿态的生成;本发明专利技术解决了手语数据集稀缺问题;进一步地提升了方法的长序列编码能力,较好地解决了口语文本和手语姿态的对齐问题;有效地利用解码器扩散生成自然连续的三维手语姿态动作,不仅生成后的结果符合真实的手语姿势,而且支持任意长度的手语姿态的生成。

【技术实现步骤摘要】

本专利技术涉及视频内容分析领域,尤其涉及一种基于transformer的扩散模型手语姿态生成方法及系统。


技术介绍

1、近年来,随着实时人机交互技术的发展,三维连续手语姿态生成不仅有利于改善聋哑人与健听人之间的双向交流,而且在元宇宙中的虚拟现实、游戏和教育等领域有着广泛的应用。例如基于口语生成聋哑主播、家教和游戏人物等虚拟人体动作姿态,以满足游戏,新闻媒体,教育等领域的虚拟角色的交互需求。

2、因此,亟需连续的三维手语姿态生成方法和系统来实现手语姿势动作的生成;相对于连续手语姿态识别,连续手语姿态生成是一个逆过程,它将口语句子转换为手语的视觉表示。该任务不仅要求深度学习模型理解口语句子的语义,还要生成相应的手语手势。因此,在模式识别和计算机视觉任务中,三维连续手语姿态生成一直是一个具有挑战性的任务。它涉及到自然语言处理、人体姿态估计、视频生成等许多流行的
鉴于收集三维连续手语姿态运动数据相当昂贵和耗时,现有的大多数工作都是研究生成二维动态手势动作。但是这种生成的二维手势动作并不能直接适用于需要三维视觉的元宇宙数字生活空间,如三维游戏和虚本文档来自技高网...

【技术保护点】

1.一种基于Transformer的扩散模型手语姿态生成方法,其特征在于,包括:

2.如权利要求1所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,所述利用姿势检测器和骨骼校正器从手语视频中获取三维连续手语姿态数据包括:

3.如权利要求1或2所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,所述构建一个基于Transformer的手语姿态解码器来解码所述三维连续手语姿态数据包括:

4.如权利要求3所述的基于Transformer的扩散模型手语姿态生成方法,其特征在于,包括:

5.如权利要求4所述的...

【技术特征摘要】

1.一种基于transformer的扩散模型手语姿态生成方法,其特征在于,包括:

2.如权利要求1所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,所述利用姿势检测器和骨骼校正器从手语视频中获取三维连续手语姿态数据包括:

3.如权利要求1或2所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,所述构建一个基于transformer的手语姿态解码器来解码所述三维连续手语姿态数据包括:

4.如权利要求3所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,包括:

5.如权利要求4所述的基于transformer的扩散模型手语姿态生成方法,其特征在于,包括:

6.如权利要求5所述的基于tran...

【专利技术属性】
技术研发人员:梁吴艳徐小龙
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1