用于生成动画的方法和装置制造方法及图纸

技术编号：20427704 阅读：24 留言：0更新日期：2019-02-23 09:23

本申请实施例公开了用于生成动画的方法和装置。该方法的一具体实施方式包括：逐段从目标语音中提取音频特征，汇总为由各语音片段的音频特征所构成的音频特征序列；将该音频特征序列输入至预先训练的嘴型信息预测模型，得到与该音频特征序列相对应的嘴型信息序列；基于该嘴型信息序列中的嘴型信息，生成包含该嘴型信息所指示的嘴型对象的人脸图像；将所生成的人脸图像作为人脸动画的关键帧，生成人脸动画。该实施方式丰富了动画的生成方式，且实现了所生成的动画中的嘴型与语音的同步。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成动画的方法和装置
本申请实施例涉及计算机
，具体涉及用于生成动画的方法和装置。
技术介绍
虚拟人像嘴型同步技术，旨在对给定的语音输入，利用计算机技术，为虚拟人像合成与语音同步的高度逼真的嘴型，并能够满足实时性要求。相关的虚拟人像嘴型同步技术，通常依赖于专业的动画师，根据输入的语音，手动地为虚拟人像设置嘴型关键帧，从而实现嘴型同步。
技术实现思路
本申请实施例提出了用于生成动画的方法和装置。第一方面，本申请实施例提供了一种用于生成动画的方法，该方法包括：逐段从目标语音中提取音频特征，汇总为由各语音片段的音频特征所构成的音频特征序列；将音频特征序列输入至预先训练的嘴型信息预测模型，得到与音频特征序列相对应的嘴型信息序列，其中，音频特征序列中的音频特征与嘴型信息序列中的嘴型信息一一对应；对于嘴型信息序列中的嘴型信息，生成包含该嘴型信息所指示的嘴型对象的人脸图像；将所生成的人脸图像作为人脸动画的关键帧，生成人脸动画。在一些实施例中，嘴型信息序列中的嘴型信息包括所对应的语音片段与各预设音素相匹配的概率；以及对于嘴型信息序列中的嘴型信息，生成包含该嘴型信息所指示的嘴型对象的人脸图像，包括：对于嘴型信息序列中的嘴型信息，将该嘴型信息中的概率最大值所对应的预设音素作为目标音素，基于预设的对应关系信息，确定与目标音素相对应的嘴型对象，生成包含嘴型对象的人脸图像，其中，对应关系信息用于表征音素与嘴型对象的对应关系。在一些实施例中，嘴型信息预测模型通过如下步骤训练得到：提取样本集，其中，样本集中的样本包括样本语音和样本语音的各语音片段的音素标注；对于样本集中的样本，逐...

【技术保护点】
1.一种用于生成动画的方法，包括：逐段从目标语音中提取音频特征，汇总为由各语音片段的音频特征所构成的音频特征序列；将所述音频特征序列输入至预先训练的嘴型信息预测模型，得到与所述音频特征序列相对应的嘴型信息序列，其中，所述音频特征序列中的音频特征与所述嘴型信息序列中的嘴型信息一一对应；对于所述嘴型信息序列中的嘴型信息，生成包含该嘴型信息所指示的嘴型对象的人脸图像；将所生成的人脸图像作为人脸动画的关键帧，生成人脸动画。

【技术特征摘要】
1.一种用于生成动画的方法，包括：逐段从目标语音中提取音频特征，汇总为由各语音片段的音频特征所构成的音频特征序列；将所述音频特征序列输入至预先训练的嘴型信息预测模型，得到与所述音频特征序列相对应的嘴型信息序列，其中，所述音频特征序列中的音频特征与所述嘴型信息序列中的嘴型信息一一对应；对于所述嘴型信息序列中的嘴型信息，生成包含该嘴型信息所指示的嘴型对象的人脸图像；将所生成的人脸图像作为人脸动画的关键帧，生成人脸动画。2.根据权利要求1所述的用于生成动画的方法，其中，所述嘴型信息序列中的嘴型信息包括所对应的语音片段与各预设音素相匹配的概率；以及所述对于所述嘴型信息序列中的嘴型信息，生成包含该嘴型信息所指示的嘴型对象的人脸图像，包括：对于所述嘴型信息序列中的嘴型信息，将该嘴型信息中的概率最大值所对应的预设音素作为目标音素，基于预设的对应关系信息，确定与所述目标音素相对应的嘴型对象，生成包含所述嘴型对象的人脸图像，其中，所述对应关系信息用于表征音素与嘴型对象的对应关系。3.根据权利要求2所述的用于生成动画的方法，其中，所述嘴型信息预测模型通过如下步骤训练得到：提取样本集，其中，所述样本集中的样本包括样本语音和所述样本语音的各语音片段的音素标注；对于样本集中的样本，逐段从该样本的样本语音中提取音频特征，汇总该样本的音频特征序列；将该样本的音频特征序列作为输入，将该样本中的音素标注作为输出，利用机器学习方法训练得到嘴型信息预测模型。4.根据权利要求1所述的用于生成动画的方法，其中，所述嘴型信息序列中的嘴型信息包括嘴部区域的关键点信息；以及所述对于所述嘴型信息序列中的嘴型信息，生成包含该嘴型信息所指示的嘴型对象的人脸图像，包括：对于所述嘴型信息序列中的嘴型信息，将该嘴型信息中的关键点信息所指示的关键点作为人脸的嘴部区域的骨骼点，生成人脸图像。5.根据权利要求4所述的用于生成动画的方法，其中，所述嘴型信息预测模型通过如下步骤训练得到：提取样本集，其中，所述样本集中的样本包括同步录制的样本视频和样本语音；对于样本集中的样本，将该样本中的样本视频中的帧依次进行人脸检测和人脸关键点检测，得到各帧的嘴部区域的关键点信息，汇总为关键点信息序列；逐段从该样本的样本语音中提取音频特征，汇总该样本的音频特征序列，其中，所述关键点信息序列中的关键点信息与该样本的音频特征序列中的音频特征一一对应；基于预设的延迟步长，对所述关键点信息序列和该样本的音频特征序列进行更新；将更新后的音频特征序列作为输入，将更新后的关键点信息序列作为输出，利用机器学习方法训练得到嘴型信息预测模型。6.根据权利要求5所述的用于生成动画的方法，其中，所述基于预设的延迟步长，对所述关键点信息序列和该样本的音频特征序列进行更新，包括：删除该样本的音频特征序列中的所在次序不大于所述延迟步长的音频特征，以对该样本的音频特征序列进行更新；确定更新后的音频特征序列中的音频特征的数量；删除所述关键点信息序列中的所在次序大于所述数量的关键点信息，以对所述关键点信息序列进行更新。7.一种用于生成动画的装置，包括：汇总单元，被配置成逐段从目标语音中提取音频特征，汇总为由各语音片段的音频特征所构成的音频特征序列；输...

【专利技术属性】
技术研发人员：王建祥，吕复强，刘骁，纪建超，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人