基于线性注意力机制的语音驱动三维人脸动画生成方法和装置制造方法及图纸

技术编号:41314469 阅读:27 留言:0更新日期:2024-05-13 14:56
基于线性注意力机制的语音驱动三维人脸动画生成方法和装置,其方法包括:S1.基于自监督的语音预训练模型构建端到端生成网络编码器模块,实现语音驱动三维人脸动画任务的语音特征提取;S2.在训练阶段构建语音单元和人脸动画帧之间的一般化函数进行数据对齐,实现语音单元和对应人脸表情的帧匹配;S3.基于线性注意力机制构建人脸表情视素解码器,实现语音特征到对应人脸表情的跨模态映射;S4.对获取的视素序列嵌入情绪和风格向量,附加平均模板人脸后解码生成对应的人脸表情运动序列。本发明专利技术能使得网络在4D人脸数据集相对稀疏的情况下对语音特征进行更好的提取,并在解码器部分基于线性复杂度的注意力机制提高三维人脸动画序列生成的速度和精确度。

【技术实现步骤摘要】

本专利技术涉及一种基于线性注意力机制的语音驱动三维人脸动画生成方法和装置


技术介绍

1、随着数字虚拟人的愈渐火热,语音驱动三维人脸动画技术在更大范围上引起了人们的关注,在电影、游戏以及vr/ar等领域中具有广阔的应用前景。语音驱动三维数字人脸动画,旨在通过输入语音序列,合成具有与其同步一致的面部运动。其内在机理在于,当人类说话时,许多面部运动由语音的产生直接引起,语音和面部姿态(尤其是嘴唇运动)之间存在高相关性。因此,这就使得通过输入语音,预测生成相应人脸面部表情成为可能。

2、为了实现逼真的3d人脸动画,传统的方法更多的依赖于相关从业者手工介入或通过捕捉设备实时驱动。前者需要大量复杂且专业的操作,在时效性和泛化性上不能良好的保证;后者则依赖高精度的捕捉设备,实现从真实人脸表情到虚拟人脸表情的映射,其不但在成本上十分昂贵,也极易在捕捉过程中受到环境因素的影响。因此,考虑到语音与面部表情的高相关性,通过语音序列直接预测生成3d人脸表情可以在泛化性,时效性以及成本节约等方面获得更好的结果。随着深度学习的火热,为了更便捷性的实现三维人脸动画,人们尝本文档来自技高网...

【技术保护点】

1.基于线性注意力机制的语音驱动三维人脸动画生成方法,包括如下步骤:

2.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸动画生成方法,其特征在于:步骤S1具体包括:

3.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸动画生成方法,其特征在于:步骤S2具体包括:

4.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸动画生成方法,其特征在于:步骤S3具体包括:

5.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸动画生成方法,其特征在于:步骤S4具体包括:

6.基于线性注意力机制的语音驱动三维人脸动画生成...

【技术特征摘要】

1.基于线性注意力机制的语音驱动三维人脸动画生成方法,包括如下步骤:

2.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸动画生成方法,其特征在于:步骤s1具体包括:

3.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸动画生成方法,其特征在于:步骤s2具体包括:

4.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸动画生成方法,其特征在于:步骤s3具体包括:

5.如权利要求1所述的基于线性注意力机制的语音驱动三维人脸...

【专利技术属性】
技术研发人员:董天阳童程凯
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1