基于ASR声学模型的嘴部动作驱动模型训练方法及组件技术

技术编号:29255721 阅读:23 留言:0更新日期:2021-07-13 17:27
本申请公开了一种基于ASR声学模型的嘴部动作驱动模型训练方法及组件,本申请使用ASR声学模型将各种繁杂的音频数据转换为能够屏蔽音色差异和噪声差异的音素特征,之后将该音素特征作为模型训练数据,从而训练得到嘴部动作驱动模型,提高了训练数据的质量,降低了训练数据的复杂性和训练成本,同时还不会影响嘴部动作驱动模型的通用性。相应地,本申请提供的一种基于ASR声学模型的嘴部动作驱动模型训练组件,也同样具有上述技术效果。

【技术实现步骤摘要】
基于ASR声学模型的嘴部动作驱动模型训练方法及组件
本申请涉及计算机
,特别涉及一种基于ASR声学模型的嘴部动作驱动模型训练方法及组件。
技术介绍
在人物影像生成、电子动画中的类人类角色动作渲染等领域,为了使得影像中的人物更加真实、自然,嘴部动作与语音的匹配是十分重要的,如何完成声音到嘴部动作的映射是解决这一问题的关键。现有的技术可以初步分为基于规则的方法与基于深度学习的方法两种。基于规则的方法利用类似字典的结构记录由语言学家提供的音素与嘴部动作的对应关系,使用时通过查表的方式完成声音到嘴部动作的映射。此方式需要的人工因素较多,其中专家数据库的成本较为高昂,而且偏于定制化,无法灵活应用到多个场景。基于深度学习的方法则直接将声音特征输入到神经网络后,即可得到相关嘴部动作参数。此方式直接用音频训练模型,由于音频本身携带噪声、不同音频还有音色差异,导致模型不能覆盖各种音色和场景。若以多种音色和场景训练模型,则会导致训练任务大,成本高。对这两种方法得到的嘴部动作进一步像素渲染等处理,最终可得到与声音匹配的人物嘴部动本文档来自技高网...

【技术保护点】
1.一种基于ASR声学模型的嘴部动作驱动模型训练方法,其特征在于,包括:/n从视频中提取图像数据以及相应的音频数据;/n获取所述图像数据中的嘴部动作特征;/n利用ASR声学模型将所述音频数据转换为音素特征;/n利用所述音素特征和所述嘴部动作特征训练深度学习模型,以得到嘴部动作驱动模型。/n

【技术特征摘要】
1.一种基于ASR声学模型的嘴部动作驱动模型训练方法,其特征在于,包括:
从视频中提取图像数据以及相应的音频数据;
获取所述图像数据中的嘴部动作特征;
利用ASR声学模型将所述音频数据转换为音素特征;
利用所述音素特征和所述嘴部动作特征训练深度学习模型,以得到嘴部动作驱动模型。


2.根据权利要求1所述的方法,其特征在于,所述ASR声学模型为deepspeech模型、PPASR模型或DFSMN模型。


3.根据权利要求2所述的方法,其特征在于,所述ASR声学模型的训练过程包括:
获取训练音频,以及所述训练音频对应的目标文本;
将所述训练音频输入初始ASR声学模型,以使所述初始ASR声学模型将所述训练音频映射为音素序列;
确定所述音素序列对应的训练文本,并计算所述训练文本与所述目标文本的损失值;
若所述损失值达到模型收敛要求,则将所述初始ASR声学模型确定为所述ASR声学模型;否则,更新所述初始ASR声学模型的模型参数后,对更新后的初始ASR声学模型进行迭代训练,直至所述损失值符合模型收敛要求。


4.根据权利要求3所述的方法,其特征在于,所述训练音频为:所述音频数据、利用TTS技术合成并添加有录制场景噪音的语音数据、演唱作品或利用TTS技术合成并添加有录制场景噪音和背景音的语音数据。


5.根据权利要求1所述的方法,其特征在于,所述获取所述图像数据中的嘴部动作特征,包括:
利用人脸检测算法从所述图像数据中提取嘴部关键点信息作为所述嘴部动作特征;

利用三维模型从所述图像...

【专利技术属性】
技术研发人员:陈泷翔刘炫鹏王鑫宇刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1