【技术实现步骤摘要】
模型的训练方法、语音转换方法和装置、设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种模型的训练方法、语音转换方法和装置、设备及存储介质。
技术介绍
[0002]语音转换,通常是指在不改变话语内容信息的情况下,将说话人更换成另一个说话人。采用常见的语音转换模型在进行语音转换时,往往无法较好地表征出实际的话语内容以及说话人的风格特征,从而导致语音转换的效果不佳,因此,如何改善语音转换效果,成为了亟待解决的技术问题。
技术实现思路
[0003]本申请实施例的主要目的在于提出一种模型的训练方法、语音转换方法和装置、设备及存储介质,旨在改善语音转换效果。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种模型的训练方法,所述训练方法包括:
[0005]获取样本说话对象的样本音频数据;其中,所述样本音频数据包括样本音频内容和样本声学特征,所述样本声学特征包括样本音色信息、样本音调信息;
[0006]将所述样本音频数据输入至预设的神经网络模型中,其中,所述神经网络模型包括编码网络和解码网络;
[0007]通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,其中,所述初始音频数据包括所述样本音频内容和所述样本音色信息,且所述初始音频数据不包括所述样本音调信息;
[0008]对所述初始音频数据进行语音对齐,得到样本音频嵌入向量;
[0009]通过所述解码网络对所述样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦 ...
【技术保护点】
【技术特征摘要】
1.一种模型的训练方法,其特征在于,所述训练方法包括:获取样本说话对象的样本音频数据;其中,所述样本音频数据包括样本音频内容和样本声学特征,所述样本声学特征包括样本音色信息、样本音调信息;将所述样本音频数据输入至预设的神经网络模型中,其中,所述神经网络模型包括编码网络和解码网络;通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,其中,所述初始音频数据包括所述样本音频内容和所述样本音色信息,且所述初始音频数据不包括所述样本音调信息;对所述初始音频数据进行语音对齐,得到样本音频嵌入向量;通过所述解码网络对所述样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦处理,得到合成音频数据,其中,所述样本音色特征向量用于表征所述样本说话对象的说话风格特点;通过预设的损失函数对所述合成音频数据和所述样本语音数据进行损失计算,得到模型损失值;根据所述模型损失值对所述神经网络模型进行参数更新,以训练所述神经网络模型,得到语音转换模型。2.根据权利要求1所述的训练方法,其特征在于,所述通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,包括:通过所述编码网络对所述样本音频数据进行参数提取,得到所述样本音频数据的初始基频参数、非周期参数以及频谱包络参数;对所述初始基频参数进行均值计算,得到目标基频参数;通过所述编码网络对所述目标基频参数、所述非周期参数以及所述频谱包络参数进行语音重构,得到所述初始音频数据。3.根据权利要求1所述的训练方法,其特征在于,所述对所述初始音频数据进行语音对齐,得到样本音频嵌入向量,包括:对所述初始音频数据进行音素特征识别,得到音素特征数据,并根据所述音素特征数据,得到所述初始音频数据的持续时间序列;根据所述持续时间序列对所述初始音频数据进行语音对齐,得到所述样本音频嵌入向量。4.根据权利要求3所述的训练方法,其特征在于,所述音素特征数据包括音素类别和音素数量,所述对所述初始音频数据进行音素特征识别,得到音素特征数据,并根据所述音素特征数据,得到所述初始音频数据的持续时间序列,包括:对所述初始音频数据进行分帧处理,得到多个音频片段;根据预设的音素对照表对所述音频片段进行识别处理,得到所述初始音频数据的音素类别以及每一所述音素类别的音素数量;根据所述音素类别和所述音素数量,得到所述持续时间序列。5.根据权利要求3所述的训练方法,其特征在于,所述根据所述持续时间序列对所述初始音频数据进行语音对齐,得到所述样本音频嵌入向量,包括:对所述初始音频数据进行嵌入处理,得到音频文本嵌入向量;
根据所述持续时间序列对所述音频文本嵌入向量进行分割处理,得到每一所述音素类别对应的中间嵌入向量,其中,所述中间嵌入向量的个数与所述音频类别的音素数量相同;对每一所述音素类别的所述中间嵌入向量进行均值...
【专利技术属性】
技术研发人员:张旭龙,王健宗,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。