【技术实现步骤摘要】
语音转换模型训练、语音转换方法、装置、电子设备及存储介质
[0001]本申请涉及语音处理
,特别是涉及一种语音转换模型训练、语音转换方法、装置、电子设备及存储介质。
技术介绍
[0002]语音转换(Voice Conversion,VC)是指通过改变与源说话人个性特征有关的声学特征参数,使之听起来像是目标说话人的语音,而其中的语义是不发生变化的。
[0003]根据数据的分布可以将语音转换分为两大类,一类是平行语料,另一类是非平行语料。平行语料对训练数据的要求很严格,而且只能转换训练集内的人的音色,所以目前广泛使用的是非平行语料方法。非平行语料方法是使用一个与说话人无关的特征作为中间特征,来作为原始声学特征和目标声学特征之间的媒介。通过提取器可以从任意原始说话人的语音中提取中间特征,然后只需要训练一个从说话人无关特征到目标说话人声学特征之间的映射模型便可以实现语音转换。最直观的说话人无关特征即是文本特征,因此可以使用每一帧对应的音素后验概率图作为中间特征。
[0004]当前的主流VC模型包括两个子模型,分 ...
【技术保护点】
【技术特征摘要】
1.一种语音转换模型训练方法,其特征在于,所述方法包括:获取多个训练音色分别对应的训练音频集;针对每个训练音色,根据所述训练音色对应的训练音频集确定所述训练音色对应的语音后验概率PPG特征数据集;根据所述训练音色对应的PPG特征数据集和所述训练音色对应的声学特征信息,对声学模型和声码器进行联合训练,获取所述训练音色对应的语音转换子模型;其中,语音转换模型包括所述多个训练音色分别对应的语音转换子模型,每一所述训练音色对应于一音色标识,所述训练音色对应的音色标识与所述训练音色对应的语音转换子模型形成关联关系。2.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述根据所述训练音色对应的PPG特征数据集和所述训练音色对应的声学特征信息,对声学模型和声码器进行联合训练,获取所述训练音色对应的语音转换子模型,包括:根据所述训练音色对应的PPG特征数据和声学特征信息对声学模型和声码器进行联合训练,在完成一次联合训练后,获取所述训练音色对应的声学特征信息与输出音频的匹配度,所述输出音频为训练得到的子模型的输出结果;在所述匹配度小于预设比例时,重复联合训练的过程,直至所述训练音色对应的声学特征信息与输出音频的匹配度大于所述预设比例时,停止联合训练,获取所述训练音色对应的语音转换子模型。3.根据权利要求2所述的语音转换模型训练方法,其特征在于,根据所述训练音色对应的PPG特征数据和声学特征信息,对声学模型和声码器进行联合训练,获取所述训练音色对应的声学特征信息与输出音频的匹配度,包括:根据所述训练音色对应的PPG特征数据和声学特征信息进行声学模型训练,获取与所述PPG特征数据对应的第一Mel谱;根据所述第一Mel谱进行声码器训练,获取与所述第一Mel谱对应的第一音频;根据所述训练音色对应的声学特征信息和所述第一音频,确定所述训练音色对应的声学特征信息与输出音频的匹配度。4.一种语音转换方法,其特征在于,应用于目标设备,所述方法包括:获取第一音频对应的PPG特征数据,所述第一音频对应于源音色;将所述第一音频对应的PPG特征数据和目标音色对应的目标音色标识输入语音转换模型,获取第二音频,所述第二音频对应于所述目标音色、且所述第二音频与所述第一音频对应的内容相同;其中,所述语音转换模型为对声学模型和声码器进行联合训练确定的模型,所述语音转换模型用于将所述第一音频对应的PPG特征数据转换为所述目标音色对应的目标Mel谱、并将所述目标Mel谱转换为所述第二音频。5.根据权利要求4所述的语音转换方法,其特征在于,所述语音转换模型包括多个训...
【专利技术属性】
技术研发人员:陈海涛,郭凯旋,甘文东,文博龙,闫影,李建伟,李海,
申请(专利权)人:成都爱奇艺智能创新科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。