当前位置: 首页 > 专利查询>之江实验室专利>正文

一种音频驱动人脸动画生成方法、装置、设备与介质制造方法及图纸

技术编号:31593272 阅读:39 留言:0更新日期:2021-12-25 11:41
本发明专利技术公开了一种音频驱动人脸动画生成方法、装置、设备和介质,该方法包括以下步骤:步骤1,采集语音信号,提取MFCC特征并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。本发明专利技术将发音和人脸表情直接关联,能够识别全球超2000种语言,具有更强的泛化能力,同时,可以为不同语言的动画进行配音,大大降低动画制作成本。成本。成本。

【技术实现步骤摘要】
一种音频驱动人脸动画生成方法、装置、设备与介质


[0001]本专利技术属于人工智能领域,涉及一种音频驱动人脸动画生成方法、装置、设备与介质。

技术介绍

[0002]音频驱动人脸动画生成涵盖语音处理、计算机图形学、计算机视觉、多媒体等多个学科领域。近年随着人工智能和多媒体技术的不断发展,虚拟数字人技术得到广泛的关注,音频驱动3D人脸动画作为其中的一个重要组成部分,也得到越来越多的关注。音频驱动人脸动画技术能够大大简化3D角色动画制作,使动画与配音音轨匹配,轻松完成游戏、电影和实时数字助理的动画角色制作;可用于交互式实时应用场景、传统的面部动画创作工具等。
[0003]现有的音频驱动人脸动画生成方案,仅针对单种语言,即单个模型仅对特定的语言能够具有较好的面部动作表情生成,若需针对不同语言,需设计不同的网络结构并进行训练。如论文“Capture, Learning, and Synthesis of 3D Speaking Styles”针对英语语音,首先利用一个语音识别模型DeepSpeech将音频识别为文字信息,之后再利用文字信息去预测3本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种音频驱动人脸动画生成方法,其特征在于,包括以下步骤:步骤1,采集语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。2.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述音素识别器,由5个堆叠的双向LSTM和一个全连接层串联组成,通过最小化CTC损失函数来优化网络参数,其中双向LSTM的输入大小为120,隐藏层的单元数为320,输出大小为640;全连接层输入大小为640,输出大小为230,全连接层的激活函数为softmax。3.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述音素识别器输出为一个长度为230的概率向量,分类包含1个空隔及229个国际音标,共230个类别,该229个国际音标覆盖全球超过2000种语言的发音。4.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述的Embedding层将音素分类概率编码为一个64维向量,构建音素之间的内在联系,并去除冗余信息。5.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述的表情预测器为一个编码器

解码器结构,其中编码器的网络结构为4个卷积层和2个全连接层进行串联,解码器的网络结构为一个全连接层。6.如权利要求1 所述的一种音频驱动人脸动画生成方法,其特征在于,所述表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据;训练过程中通过最小化损失函数来更新所述Em...

【专利技术属性】
技术研发人员:刘逸颖李太豪郑书凯阮玉平
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1