模型的训练方法、语音转换方法和装置、设备及存储介质制造方法及图纸

技术编号:36449999 阅读:12 留言:0更新日期:2023-01-25 22:46
本申请提供了一种模型的训练方法、语音转换方法和装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取样本说话对象的样本音频数据;将样本音频数据输入至包括编码网络和解码网络的神经网络模型;通过编码网络对样本音频数据进行重构处理,得到初始音频数据;对初始音频数据进行语音对齐,得到样本音频嵌入向量;通过解码网络对样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦处理,得到合成音频数据;通过损失函数对合成音频数据和样本语音数据进行损失计算,得到模型损失值;根据模型损失值对神经网络模型进行参数更新,以训练神经网络模型,得到语音转换模型。本申请能够改善语音转换效果。果。果。

【技术实现步骤摘要】
模型的训练方法、语音转换方法和装置、设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种模型的训练方法、语音转换方法和装置、设备及存储介质。

技术介绍

[0002]语音转换,通常是指在不改变话语内容信息的情况下,将说话人更换成另一个说话人。采用常见的语音转换模型在进行语音转换时,往往无法较好地表征出实际的话语内容以及说话人的风格特征,从而导致语音转换的效果不佳,因此,如何改善语音转换效果,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种模型的训练方法、语音转换方法和装置、设备及存储介质,旨在改善语音转换效果。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种模型的训练方法,所述训练方法包括:
[0005]获取样本说话对象的样本音频数据;其中,所述样本音频数据包括样本音频内容和样本声学特征,所述样本声学特征包括样本音色信息、样本音调信息;
[0006]将所述样本音频数据输入至预设的神经网络模型中,其中,所述神经网络模型包括编码网络和解码网络;
[0007]通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,其中,所述初始音频数据包括所述样本音频内容和所述样本音色信息,且所述初始音频数据不包括所述样本音调信息;
[0008]对所述初始音频数据进行语音对齐,得到样本音频嵌入向量;
[0009]通过所述解码网络对所述样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦处理,得到合成音频数据,其中,所述样本音色特征向量用于表征所述样本说话对象的说话风格特点;
[0010]通过预设的损失函数对所述合成音频数据和所述样本语音数据进行损失计算,得到模型损失值;
[0011]根据所述模型损失值对所述神经网络模型进行参数更新,以训练所述神经网络模型,得到语音转换模型。
[0012]在一些实施例,所述通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,包括:
[0013]通过所述编码网络对所述样本音频数据进行参数提取,得到所述样本音频数据的初始基频参数、非周期参数以及频谱包络参数;
[0014]对所述初始基频参数进行均值计算,得到目标基频参数;
[0015]通过所述编码网络对所述目标基频参数、所述非周期参数以及所述频谱包络参数
进行语音重构,得到所述初始音频数据。
[0016]在一些实施例,所述对所述初始音频数据进行语音对齐,得到样本音频嵌入向量,包括:
[0017]对所述初始音频数据进行音素特征识别,得到音素特征数据,并根据所述音素特征数据,得到所述初始音频数据的持续时间序列;
[0018]根据所述持续时间序列对所述初始音频数据进行语音对齐,得到所述样本音频嵌入向量。
[0019]在一些实施例,所述音素特征数据包括音素类别和音素数量,所述对所述初始音频数据进行音素特征识别,得到音素特征数据,并根据所述音素特征数据,得到所述初始音频数据的持续时间序列,包括:
[0020]对所述初始音频数据进行分帧处理,得到多个音频片段;
[0021]根据预设的音素对照表对所述音频片段进行识别处理,得到所述初始音频数据的音素类别以及每一所述音素类别的音素数量;
[0022]根据所述音素类别和所述音素数量,得到所述持续时间序列。
[0023]在一些实施例,所述根据所述持续时间序列对所述初始音频数据进行语音对齐,得到所述样本音频嵌入向量,包括:
[0024]对所述初始音频数据进行嵌入处理,得到音频文本嵌入向量;
[0025]根据所述持续时间序列对所述音频文本嵌入向量进行分割处理,得到每一所述音素类别对应的中间嵌入向量,其中,所述中间嵌入向量的个数与所述音频类别的音素数量相同;
[0026]对每一所述音素类别的所述中间嵌入向量进行均值计算,得到每一所述音素类别对应的候选嵌入向量;
[0027]根据所述音素数量对所述候选嵌入向量进行复制处理,得到每一所述音素类别对应的目标嵌入向量,其中,所述目标嵌入向量的个数与所述音频类别的音素数量相同;
[0028]对所有所述目标嵌入向量进行拼接处理,得到所述样本音频嵌入向量。
[0029]在一些实施例,所述通过所述解码网络对所述样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦处理,得到合成音频数据之前,所述训练方法还获取所述样本音色特征向量,具体包括:
[0030]将所述样本音频数据输入至预设的声纹识别模型,其中,所述声纹识别模型包括LSTM层和线性层;
[0031]通过所述LSTM层对所述样本音频数据进行特征提取,得到样本音频特征隐向量;
[0032]通过所述线性层对所述样本音频特征隐向量进行预测处理,得到所述样本音色特征向量。
[0033]为实现上述目的,本申请实施例的第二方面提出了一种语音转换方法,所述方法包括:
[0034]获取待处理的原始音频数据
[0035]将所述原始音频数据、预先获取的目标说话对象的目标音调特征和目标音色特征输入至语音转换模型进行语音转换,得到目标音频数据,其中,所述语音转换模型根据第一方面所述的训练方法训练得到。
[0036]为实现上述目的,本申请实施例的第三方面提出了一种模型的训练装置,所述训练装置包括:
[0037]音频数据获取模块,用于获取样本说话对象的样本音频数据;其中,所述样本音频数据包括样本音频内容和样本声学特征,所述样本声学特征包括样本音色信息、样本音调信息;
[0038]数据输入模块,用于将所述样本音频数据输入至预设的神经网络模型中,其中,所述神经网络模型包括编码网络和解码网络;
[0039]重构模块,用于通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,其中,所述初始音频数据包括所述样本音频内容和所述样本音色信息,且所述初始音频数据不包括所述样本音调信息;
[0040]语音对齐模块,用于对所述初始音频数据进行语音对齐,得到样本音频嵌入向量;
[0041]解耦模块,用于通过所述解码网络对所述样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦处理,得到合成音频数据,其中,所述样本音色特征向量用于表征所述样本说话对象的说话风格特点;
[0042]损失计算模块,用于通过预设的损失函数对所述合成音频数据和所述样本语音数据进行损失计算,得到模型损失值;
[0043]参数更新模块,用于根据所述模型损失值对所述神经网络模型进行参数更新,以训练所述神经网络模型,得到语音转换模型。
[0044]为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法或者第二方面所述的方法。
[0045]为实现上述目的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型的训练方法,其特征在于,所述训练方法包括:获取样本说话对象的样本音频数据;其中,所述样本音频数据包括样本音频内容和样本声学特征,所述样本声学特征包括样本音色信息、样本音调信息;将所述样本音频数据输入至预设的神经网络模型中,其中,所述神经网络模型包括编码网络和解码网络;通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,其中,所述初始音频数据包括所述样本音频内容和所述样本音色信息,且所述初始音频数据不包括所述样本音调信息;对所述初始音频数据进行语音对齐,得到样本音频嵌入向量;通过所述解码网络对所述样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦处理,得到合成音频数据,其中,所述样本音色特征向量用于表征所述样本说话对象的说话风格特点;通过预设的损失函数对所述合成音频数据和所述样本语音数据进行损失计算,得到模型损失值;根据所述模型损失值对所述神经网络模型进行参数更新,以训练所述神经网络模型,得到语音转换模型。2.根据权利要求1所述的训练方法,其特征在于,所述通过所述编码网络对所述样本音频数据进行重构处理,得到初始音频数据,包括:通过所述编码网络对所述样本音频数据进行参数提取,得到所述样本音频数据的初始基频参数、非周期参数以及频谱包络参数;对所述初始基频参数进行均值计算,得到目标基频参数;通过所述编码网络对所述目标基频参数、所述非周期参数以及所述频谱包络参数进行语音重构,得到所述初始音频数据。3.根据权利要求1所述的训练方法,其特征在于,所述对所述初始音频数据进行语音对齐,得到样本音频嵌入向量,包括:对所述初始音频数据进行音素特征识别,得到音素特征数据,并根据所述音素特征数据,得到所述初始音频数据的持续时间序列;根据所述持续时间序列对所述初始音频数据进行语音对齐,得到所述样本音频嵌入向量。4.根据权利要求3所述的训练方法,其特征在于,所述音素特征数据包括音素类别和音素数量,所述对所述初始音频数据进行音素特征识别,得到音素特征数据,并根据所述音素特征数据,得到所述初始音频数据的持续时间序列,包括:对所述初始音频数据进行分帧处理,得到多个音频片段;根据预设的音素对照表对所述音频片段进行识别处理,得到所述初始音频数据的音素类别以及每一所述音素类别的音素数量;根据所述音素类别和所述音素数量,得到所述持续时间序列。5.根据权利要求3所述的训练方法,其特征在于,所述根据所述持续时间序列对所述初始音频数据进行语音对齐,得到所述样本音频嵌入向量,包括:对所述初始音频数据进行嵌入处理,得到音频文本嵌入向量;
根据所述持续时间序列对所述音频文本嵌入向量进行分割处理,得到每一所述音素类别对应的中间嵌入向量,其中,所述中间嵌入向量的个数与所述音频类别的音素数量相同;对每一所述音素类别的所述中间嵌入向量进行均值...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1