【技术实现步骤摘要】
一种音频驱动人脸动画生成方法、装置、设备与介质
[0001]本专利技术属于人工智能领域,涉及一种音频驱动人脸动画生成方法、装置、设备与介质。
技术介绍
[0002]音频驱动人脸动画生成涵盖语音处理、计算机图形学、计算机视觉、多媒体等多个学科领域。近年随着人工智能和多媒体技术的不断发展,虚拟数字人技术得到广泛的关注,音频驱动3D人脸动画作为其中的一个重要组成部分,也得到越来越多的关注。音频驱动人脸动画技术能够大大简化3D角色动画制作,使动画与配音音轨匹配,轻松完成游戏、电影和实时数字助理的动画角色制作;可用于交互式实时应用场景、传统的面部动画创作工具等。
[0003]现有的音频驱动人脸动画生成方案,仅针对单种语言,即单个模型仅对特定的语言能够具有较好的面部动作表情生成,若需针对不同语言,需设计不同的网络结构并进行训练。如论文“Capture, Learning, and Synthesis of 3D Speaking Styles”针对英语语音,首先利用一个语音识别模型DeepSpeech将音频识别为文字信息,之后再 ...
【技术保护点】
【技术特征摘要】
1.一种音频驱动人脸动画生成方法,其特征在于,包括以下步骤:步骤1,采集语音信号,提取MFCC特征,并输入音素识别器,获得语音的音素分类概率;步骤2,将音素分类概率输入Embedding层,得到音素的Embedding编码;步骤3,将音素的Embedding编码输入表情预测器,得到3D人脸的顶点位移;步骤4,将3D人脸顶点位移,与自然表情的人脸模板相加,得到带说话表情的3D人脸;步骤5,将连续时间内的3D人脸渲染为2D图像,生成动画视频。2.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述音素识别器,由5个堆叠的双向LSTM和一个全连接层串联组成,通过最小化CTC损失函数来优化网络参数,其中双向LSTM的输入大小为120,隐藏层的单元数为320,输出大小为640;全连接层输入大小为640,输出大小为230,全连接层的激活函数为softmax。3.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述音素识别器输出为一个长度为230的概率向量,分类包含1个空隔及229个国际音标,共230个类别,该229个国际音标覆盖全球超过2000种语言的发音。4.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述的Embedding层将音素分类概率编码为一个64维向量,构建音素之间的内在联系,并去除冗余信息。5.如权利要求1所述的一种音频驱动人脸动画生成方法,其特征在于,所述的表情预测器为一个编码器
‑
解码器结构,其中编码器的网络结构为4个卷积层和2个全连接层进行串联,解码器的网络结构为一个全连接层。6.如权利要求1 所述的一种音频驱动人脸动画生成方法,其特征在于,所述表情预测器的训练数据包含不同语言的语音数据及对应的3D人脸模型数据;训练过程中通过最小化损失函数来更新所述Em...
【专利技术属性】
技术研发人员:刘逸颖,李太豪,郑书凯,阮玉平,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。