面部动画的合成方法、装置、存储介质、处理器及终端制造方法及图纸

技术编号：20427706 阅读：25 留言：0更新日期：2019-02-23 09:23

本发明专利技术公开了一种面部动画的合成方法、装置、存储介质、处理器及终端。该方法包括：对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，音素时间戳文件包括：由音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；获取与音素时间戳文件对应的口型序列，其中，口型序列用于描述音素时间戳文件中的每个音素对应的口型信息；获取与表情时间戳文件对应的表情序列，其中，表情序列用于描述表情时间戳文件对应的表情信息；将口型序列和表情序列合成为面部动画。本发明专利技术解决了相关技术中所提供的语音解析方式易造成后续合成的语音动画存在较大误差，影响用户体验的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
面部动画的合成方法、装置、存储介质、处理器及终端
本专利技术涉及计算机领域，具体而言，涉及一种面部动画的合成方法、装置、存储介质、处理器及终端。
技术介绍
人的面部信息包括：表情和口型。在通常情况下，表情与口型的变化具有独立性，其中，口型包含有较多的高频信息，而表情则更倾向于低频表达。例如，当普通人在阐述一句话时，口型会随着发音的变化而频繁变化。相对而言，表情变化则较为缓慢，甚至缺少明显变化。总体上，面部信息可以看成是表情与口型这两个相对独立部分的融合。针对表情与口型的融合，相关技术中所提供的技术方案主要分为语音解析、表情与口型动画合成、语音驱动面部动画。对于语音解析而言，主要是面向中英文语音进行解析。对于表情与口型动画合成，主要是通过动作捕捉或者美术人员直接制作骨骼动作等方式实现。关于中文语音音素解析，相关技术所提供的其中一种解决方案只能输入中文语音并输出中文文本，而无法准确地获取中文文本中每个音素的时间戳及其持续时长。相关技术所提供的另外一种解决方案(例如：IBM的Waston服务)虽然可以对中文语音进行处理并获得每个分词的时间戳及其持续时长，但是，Waston却无法准确地定位到每个文字的时间戳和持续时长，从而对后续生成的语音动画造成极大的误差。关于表情动画合成与语音驱动面部动画，相关技术中所提供的的动作捕捉方式成本较高、灵活性差、生成的数据量大，因而难以应用在移动端。另外，关于美术人员制作的表情动画合成以及语音驱动面部动画，同样存在效率低、灵活性差，反复修改的成本过高等问题。表1为相关技术中所提供的多种语音解析技术的现状说明，如表1所示：表1表2为相...

【技术保护点】
1.一种面部动画的合成方法，其特征在于，包括：对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，所述音素时间戳文件包括：由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；获取与所述音素时间戳文件对应的口型序列，其中，所述口型序列用于描述所述音素时间戳文件中的每个音素对应的口型信息；获取与所述表情时间戳文件对应的表情序列，其中，所述表情序列用于描述所述表情时间戳文件对应的表情信息；将所述口型序列和所述表情序列合成为面部动画。

【技术特征摘要】
1.一种面部动画的合成方法，其特征在于，包括：对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，所述音素时间戳文件包括：由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个文字对应至少一个音素；获取与所述音素时间戳文件对应的口型序列，其中，所述口型序列用于描述所述音素时间戳文件中的每个音素对应的口型信息；获取与所述表情时间戳文件对应的表情序列，其中，所述表情序列用于描述所述表情时间戳文件对应的表情信息；将所述口型序列和所述表情序列合成为面部动画。2.根据权利要求1所述的方法，其特征在于，在将所述口型序列和所述表情序列合成为所述面部动画之后，还包括：将所述面部动画与所述音频文件进行同步播放。3.根据权利要求1所述的方法，其特征在于，对所述音频文件进行语音解析，得到所述音素时间戳文件包括：将所述音频文件转换为文本序列；根据所述文本序列中每个文字的中文拼音将所述文本序列转换为音素序列，其中，每个文字对应至少一个音素；对所述音素序列进行时序建模，得到所述音素时间戳文件。4.根据权利要求3所述的方法，其特征在于，将所述音频文件转换为所述文本序列包括：采用连接时态分类-递归神经网络模型将所述音频文件转换为所述文本序列。5.根据权利要求3所述的方法，其特征在于，对所述音素序列进行时序建模，得到所述音素时间戳文件包括：采用隐马尔科夫模型对所述音素序列进行时序建模，得到所述音素时间戳文件。6.根据权利要求1所述的方法，其特征在于，获取与所述表情时间戳文件对应的表情序列包括：提取所述音频文件在预设时间窗内的声谱图；根据所述声谱图推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到所述表情序列。7.根据权利要求6所述的方法，其特征在于，根据所述声谱图推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到所述表情序列包括：将所述声谱图设置为输入项，通过卷积神经网络推导出所述表情时间戳文件对应的表情动画以及每个表情对应的情感类别，得到所述表情序列。8.根据权利要求1所述的方法，其特征在于，获取与所述音素时间戳文件对应的口型序列包括：根据预设对应关系确定所述音素时间戳文件中的每个音素对应的口型类型，其中，所述预设对应关系用于记录不同音素与口型类型之间的映射关系，每种口型类型分别对应不同的口型动画；将每个音素的时间戳与对应的口型类型进行绑定，得到所述口型序列。9.根据权利要求2所述的方法，其特征在于，将所述口型序列和所述表情序列合成为所述面部动画，并将所述面部动画与所述音频文件进行同步播放包括：判断步骤，每间隔预设时长触发判断是否合成所述口型序列中的口型动画与所述表情序列中的表情动画；处理步骤，如果是，则先将当前口型动画与上一个口型动画进行融合，得到待播放的口型动画，再将触发时刻对应的表情动画与所述待播放的口型动画进行合成，得到所述触发时刻的面部动画；播放步骤，若未达到所述音频文件的播放结束时刻，则播放所述触发时刻的面部动画，并返回所述判断步骤，直至达到所述播放结束时刻。10.一种面部动画的合成装置，其特征在于，包括：解析模块，用于对音频文件进行语音解析，得到音素时间戳文件和表情时间戳文件，其中，所述音素时间戳文件包括：由所述音频文件转换得到的每个文字对应的每个音素的时间戳和持续时长，每个...

【专利技术属性】
技术研发人员：陈晓威，万里红，张伟东，张民英，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人