语音合成、特征提取模型训练方法、装置、介质及设备制造方法及图纸

技术编号:26224620 阅读:82 留言:0更新日期:2020-11-04 10:59
本公开涉及一种语音合成、特征提取模型训练方法、装置、介质及设备,所述语音合成方法包括:获取待处理的唇动数据;通过声学特征提取模型对所述唇动数据进行处理,以得到所述唇动数据对应的声学特征信息;根据所述声学特征信息进行语音合成,以得到与所述唇动数据对应的音频信息;其中,所述声学特征提取模型是通过将样本唇动数据对应的目标文本信息作为模型约束条件进行训练得到的。由此,可以一定程度上保证确定出的音频信息中语义连续性和准确性。该声学特征提取模型是基于文本信息对模型进行约束训练获得的,可以通过增加文本学习的辅助任务以提高该声学特征提取模型对不同的测试数据的适用,提高该声学特征提取模型的准确性和适用范围。

【技术实现步骤摘要】
语音合成、特征提取模型训练方法、装置、介质及设备
本公开涉及语音合成
,具体地,涉及一种语音合成、特征提取模型训练方法、装置、介质及设备。
技术介绍
随着计算机技术的发展,语音合成技术的应用日益重要。为了提高语音合成的准确率,可以通过唇动数据进行识别,以获得该唇动数据对应的内容信息。现有技术中通常是基于统计模型,根据唇动图像和语音数据训练决策树,然后通过对决策树中的叶子节点进行聚类,确定出唇动图像和语音数据的映射关系。则之后可以根据唇动图像的类别追溯至叶子节点,采用聚类中心均值作为预测结果,从而确定该唇动图像对应的内容信息。通过上述方式,针对唇动图像的类别样本数量不一致的情况,容易出现内容信息识别不准确的问题,并且基于决策树的方式会忽略属性之间的相关性,识别出的内容信息之间的连续性较差。
技术实现思路
提供该
技术实现思路
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该
技术实现思路
部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。第本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,所述方法包括:/n获取待处理的唇动数据;/n通过声学特征提取模型对所述唇动数据进行处理,以得到所述唇动数据对应的声学特征信息;/n根据所述声学特征信息进行语音合成,以得到与所述唇动数据对应的音频信息;其中,所述声学特征提取模型是通过将样本唇动数据对应的目标文本信息作为模型约束条件进行训练得到的。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:
获取待处理的唇动数据;
通过声学特征提取模型对所述唇动数据进行处理,以得到所述唇动数据对应的声学特征信息;
根据所述声学特征信息进行语音合成,以得到与所述唇动数据对应的音频信息;其中,所述声学特征提取模型是通过将样本唇动数据对应的目标文本信息作为模型约束条件进行训练得到的。


2.根据权利要求1所述的方法,其特征在于,所述声学特征提取模型通过如下方式训练得到:
获取样本唇动数据、与所述样本唇动数据对应的目标声学特征信息和目标文本信息;
将所述样本唇动数据作为模型输入、将所述目标声学特征信息作为模型的目标输出、并将所述目标文本信息作为模型约束条件,对神经网络模型进行训练,以得到所述声学特征提取模型。


3.根据权利要求2所述的方法,其特征在于,在训练所述神经网络模型的过程中,所述神经网络模型的损失值是根据第一损失值和第二损失值确定的,其中,所述第一损失值是根据所述目标声学特征信息和所述神经网络模型输出的与所述样本唇动数据对应的声学特征信息确定的,所述第二损失值是根据所述目标文本信息和所述神经网络模型输出的与所述样本唇动数据对应的文本信息确定的。


4.根据权利要求2所述的方法,其特征在于,所述获取样本唇动数据、与所述样本唇动数据对应的目标声学特征信息和目标文本信息,包括:
获取样本视频数据;
确定所述样本视频数据中目标音频帧对应的多个图像帧;
提取每一所述图像帧中的唇部区域图像,并将提取到的多个所述唇部区域图像作为所述样本唇动数据;
获取所述目标音频帧对应的文本信息,并将所述目标音频帧对应的文本信息确定为与所述目标文本信息;
提取所述目标音频帧的声学特征信息,并将提取到的所述声学特征信息确定为所述目标声学特征信息。


5.根据权利要求2-4中任一项所述的方法,其特征在于,所述神经网络模型包括第一子模型和第二子模型;
其中,所述第一子模型为包含多层三维卷积层的循环神经网络模型,用于对所述样本唇动数据进行特征编码,获得所述样本唇动数据对应的目标编码信息;所述第二子模型为包含多层一维卷积层、且具有单调注意力机制的自回归高斯混合神经网络模型,用于将所述目标编码信息解码为声学特征信息和文本信息。


6.根据权利要求1所述的方法,其特征在于,所述获取待处理的唇动数据,包括:
获取待处理的视频数据;
提取所述视频数据的多个图像帧中的唇部区域图像,并将提取到的多个所述唇部区域图像作为所述唇动数据。


7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
将所述音频信息合成到所述视频数据中,以生成目标视频数据。


8.一种声学特征提取模型训练方法,其特征在于,所述方法包括:
获取样本唇动数据、与所述样本唇动数据对应的目标声学特征信息和目标文本信息;
将所述样本唇动...

【专利技术属性】
技术研发人员:殷翔
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1