一种音频驱动人脸动画生成方法、装置、设备与介质制造方法及图纸

技术编号：31593272 阅读：39 留言：0更新日期：2021-12-25 11:41

本发明专利技术公开了一种音频驱动人脸动画生成方法、装置、设备和介质，该方法包括以下步骤：步骤1，采集语音信号，提取MFCC特征并输入音素识别器，获得语音的音素分类概率；步骤2，将音素分类概率输入Embedding层，得到音素的Embedding编码；步骤3，将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；步骤4，将3D人脸顶点位移与自然表情的人脸模板相加，得到带说话表情的3D人脸；步骤5，将连续时间内的3D人脸渲染为2D图像，生成动画视频。本发明专利技术将发音和人脸表情直接关联，能够识别全球超2000种语言，具有更强的泛化能力，同时，可以为不同语言的动画进行配音，大大降低动画制作成本。成本。成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种音频驱动人脸动画生成方法、装置、设备与介质

[0001]本专利技术属于人工智能领域，涉及一种音频驱动人脸动画生成方法、装置、设备与介质。

技术介绍

[0002]音频驱动人脸动画生成涵盖语音处理、计算机图形学、计算机视觉、多媒体等多个学科领域。近年随着人工智能和多媒体技术的不断发展，虚拟数字人技术得到广泛的关注，音频驱动3D人脸动画作为其中的一个重要组成部分，也得到越来越多的关注。音频驱动人脸动画技术能够大大简化3D角色动画制作，使动画与配音音轨匹配，轻松完成游戏、电影和实时数字助理的动画角色制作；可用于交互式实时应用场景、传统的面部动画创作工具等。
[0003]现有的音频驱动人脸动画生成方案，仅针对单种语言，即单个模型仅对特定的语言能够具有较好的面部动作表情生成，若需针对不同语言，需设计不同的网络结构并进行训练。如论文“Capture, Learning, and Synthesis of 3D Speaking Styles”针对英语语音，首先利用一个语音识别模型DeepSpeech将音频识别为文字信息，之后再...

【技术保护点】

【技术特征摘要】
1.一种音频驱动人脸动画生成方法，其特征在于，包括以下步骤：步骤1，采集语音信号，提取MFCC特征，并输入音素识别器，获得语音的音素分类概率；步骤2，将音素分类概率输入Embedding层，得到音素的Embedding编码；步骤3，将音素的Embedding编码输入表情预测器，得到3D人脸的顶点位移；步骤4，将3D人脸顶点位移，与自然表情的人脸模板相加，得到带说话表情的3D人脸；步骤5，将连续时间内的3D人脸渲染为2D图像，生成动画视频。2.如权利要求1所述的一种音频驱动人脸动画生成方法，其特征在于，所述音素识别器，由5个堆叠的双向LSTM和一个全连接层串联组成，通过最小化CTC损失函数来优化网络参数，其中双向LSTM的输入大小为120，隐藏层的单元数为320，输出大小为640；全连接层输入大小为640，输出大小为230，全连接层的激活函数为softmax。3.如权利要求1所述的一种音频驱动人脸动画生成方法，其特征在于，所述音素识别器输出为一个长度为230的概率向量，分类包含1个空隔及229个国际音标，共230个类别，该229个国际音标覆盖全球超过2000种语言的发音。4.如权利要求1所述的一种音频驱动人脸动画生成方法，其特征在于，所述的Embedding层将音素分类概率编码为一个64维向量，构建音素之间的内在联系，并去除冗余信息。5.如权利要求1所述的一种音频驱动人脸动画生成方法，其特征在于，所述的表情预测器为一个编码器
‑
解码器结构，其中编码器的网络结构为4个卷积层和2个全连接层进行串联，解码器的网络结构为一个全连接层。6.如权利要求1 所述的一种音频驱动人脸动画生成方法，其特征在于，所述表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据；训练过程中通过最小化损失函数来更新所述Em...

【专利技术属性】
技术研发人员：刘逸颖，李太豪，郑书凯，阮玉平，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人