【技术实现步骤摘要】
基于唇形的语音生成方法、装置和系统及存储介质
本专利技术涉及语音处理
,具体地,涉及一种基于唇形的语音生成方法、装置和系统及存储介质。
技术介绍
在语音处理
,基于唇形的语音生成技术是比较重要的研究方向。在现有技术中,基于唇形的语音生成通过简单地将唇语识别与语音合成串联起来的方式实现。唇语识别技术,是对图像中的人连续的口型变化进行识别,识别出此人口型对应的发音,随后根据识别出的发音,计算出可能性最大的自然语言语句。语音合成技术,是将文本转换成声音的技术,通过文本处理、韵律预测、声学参数预测、声音生成等模块,输出文本对应的声音。上述现有技术存在如下缺点:如果简单地将唇语识别与语音合成串联起来,一方面会造成唇语识别成文字时带来的错误被进一步传导,另一方面,也很难将合成的语音与唇部动作对应起来,造成将语音与唇部动作视频合成在一起时获得的视频效果不够真实生动。
技术实现思路
为了至少部分地解决现有技术中存在的问题,提供一种基于唇形的语音生成方法、装置和系统及存储介质。根据本专利技术一个 ...
【技术保护点】
1.一种基于唇形的语音生成方法,包括:/n获取包含唇形信息的实际图像序列;/n从所述实际图像序列的每个实际图像中分别提取唇部特征,以获得实际唇部特征序列;/n将所述实际唇部特征序列输入唇语识别网络,以获得实际中间表示序列,其中,所述实际中间表示序列是音子后验概率序列或音子序列;以及/n将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音,所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。/n
【技术特征摘要】
1.一种基于唇形的语音生成方法,包括:
获取包含唇形信息的实际图像序列;
从所述实际图像序列的每个实际图像中分别提取唇部特征,以获得实际唇部特征序列;
将所述实际唇部特征序列输入唇语识别网络,以获得实际中间表示序列,其中,所述实际中间表示序列是音子后验概率序列或音子序列;以及
将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音,所述目标语音的内容与所述实际图像序列中的唇形信息表达的语音内容一致。
2.根据权利要求1所述的基于唇形的语音生成方法,其中,所述将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音包括:
将所述实际中间表示序列与音色配置参数一起输入所述目标语音生成网络,以获得所述目标语音,其中,所述音色配置参数是与所述目标发音人唯一相关的发音人嵌入向量。
3.根据权利要求1所述的基于唇形的语音生成方法,其中,在所述将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音之前,所述语音生成方法还包括:
基于音色配置参数从多个预设语音生成网络中选择所述目标语音生成网络,其中,所述音色配置参数是与所述目标语音生成网络唯一相关的标识信息。
4.根据权利要求2或3所述的基于唇形的语音生成方法,其中,在所述将所述实际中间表示序列输入目标语音生成网络,以获得目标发音人的目标语音之前,所述语音生成方法还包括:
接收用户输入信息;以及
基于所述用户输入信息确定所述音色配置参数。
5.根据权利要求1至3任一项所述的基于唇形的语音生成方法,其中,所述实际中间表示序列是音子后验概率序列,所述语音生成方法还包括:
获取包含唇形信息的样本图像序列和与所述样本图像序列相对应的标注音子序列,其中,所述标注音子序列中的音子与所述样本图像序列中的唇形信息表达的语音内容一致;
从所述样本图像序列的每个样本图像中分别提取唇部特征,以获得样本唇部特征序列;
将所述样本唇部特征序列输入音子识别网络,以获得样本音子序列,所述音子识别网络包括所述唇语识别网络和连接在所述唇语识别网络后面的输出层;以...
【专利技术属性】
技术研发人员:刘博,李秀林,
申请(专利权)人:标贝北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。