一种嘴部动作驱动模型训练方法及组件技术

技术编号：29255719 阅读：29 留言：0更新日期：2021-07-13 17:27

本申请公开了一种嘴部动作驱动模型训练方法及组件。本申请中的嘴部动作驱动模型能够将文本数据转换为声学特征，将声学特征编码为音频文件，并确定音频文件对应的嘴部动作画面，让嘴部动作驱动模型既学习了语音合成、编码能力，又学习了语音和画面的匹配能力。在学习语音合成、编码能力的过程中，以视频里语音对应的文本为训练数据，使模型学习画面对应的语音中的语调、语气的停顿，因此合成语音能够和视频里的语音保持一致。故以此训练得到的嘴部动作驱动模型能够合成带有语气停顿的语音，并据此在匹配语音与画面时，使二者在时间上对齐，提高语音与画面的匹配准确度。本申请提供的一种嘴部动作驱动模型训练组件，也同样具有上述技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种嘴部动作驱动模型训练方法及组件
本申请涉及计算机
，特别涉及一种嘴部动作驱动模型训练方法及组件。
技术介绍
在人物影像生成、电子动画中的类人类角色动作渲染等领域，为了使得影像中的人物更加真实、自然，嘴部动作与语音的匹配是十分重要的，如何完成声音到嘴部动作的映射是解决这一问题的关键。现有的技术可以初步分为基于规则的方法与基于深度学习的方法两种。基于规则的方法利用类似字典的结构记录由语言学家提供的音素与嘴部动作的对应关系，使用时通过查表的方式完成声音到嘴部动作的映射。此方式需要的人工因素较多，其中专家数据库的成本较为高昂，而且偏于定制化，无法灵活应用到多个场景。基于深度学习的方法则直接将声音特征输入到神经网络后，即可得到相关嘴部动作参数。此方式需要先训练TTS语音合成模型，再训练嘴部动作驱动模型。其中，TTS语音合成模型用于将文本转换为语音，并以此作为嘴部动作驱动模型在应用过程中的输入数据。其中以视频里的图像和声音来训练得到嘴部动作驱动模型。可见，TTS语音合成模型和嘴部动作驱动模型分开训练，嘴...

【技术保护点】
1.一种嘴部动作驱动模型训练方法，其特征在于，包括：/n获取目标视频；/n提取所述目标视频中的声音和图像；/n获取所述声音对应的文本数据；/n从所述图像中提取与所述文本数据对应的嘴部动作特征；/n利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面；/n计算所述嘴部动作画面与所述嘴部动作特征的损失值；/n若所述损失值达到模型收敛要求，则将所述初始深度学习模型确定为嘴部动作驱动模型；否则，更新所述初始深度学习模型的模型参数后，对更新后的初始深度学习模型进行迭代训练，直至所述损失值符合模型收敛要求。/n

【技术特征摘要】
1.一种嘴部动作驱动模型训练方法，其特征在于，包括：
获取目标视频；
提取所述目标视频中的声音和图像；
获取所述声音对应的文本数据；
从所述图像中提取与所述文本数据对应的嘴部动作特征；
利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面；
计算所述嘴部动作画面与所述嘴部动作特征的损失值；
若所述损失值达到模型收敛要求，则将所述初始深度学习模型确定为嘴部动作驱动模型；否则，更新所述初始深度学习模型的模型参数后，对更新后的初始深度学习模型进行迭代训练，直至所述损失值符合模型收敛要求。

2.根据权利要求1所述的方法，其特征在于，所述从所述图像中提取与所述文本数据对应的嘴部动作特征，包括：
利用人脸检测算法从所述图像中提取嘴部关键点信息作为所述嘴部动作特征；
或
利用三维模型从所述图像中提取嘴部轮廓信息作为所述嘴部动作特征；
或
利用人脸检测算法从所述图像中提取嘴部关键点信息；
利用三维模型从所述图像中提取嘴部轮廓信息；
融合所述嘴部关键点信息和所述嘴部轮廓信息，得到融合信息，并将所述融合信息作为所述嘴部动作特征。

3.根据权利要求1所述的方法，其特征在于，所述利用初始深度学习模型将所述文本数据转换为声学特征，将所述声学特征编码为音频文件，并确定所述音频文件对应的嘴部动作画面之前，还包括：
将所述文本数据分段，获得多个文本段；
将各个文本段分别转换为相应的发音。

4.根据权利要求1所述的方法，其特征在于，所述确定所述音频文件对应的嘴部动作画面，包括：
将所述音频文件分片段输出，同时输出各个片段对应的画面帧；
按照预设时间长度对各个片段对应...

【专利技术属性】
技术研发人员：陈泷翔，刘炫鹏，王鑫宇，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人