【技术实现步骤摘要】
模型训练和语音合成方法、装置、设备及介质
[0001]本专利技术涉及语音合成
,尤其涉及一种模型训练和语音合成方法、装置、设备及介质。
技术介绍
[0002]现有技术中,为了合成情感自然的语音数据,在训练语音合成模型时,一般预先需要获取包含带有情感标签的文本转语音(Text to Speech,TTS)数据的样本集,以及对应的参考样本集,该参考样本集中存在带有不同情感标签的自然语音数据。其中,该情感标签用于标识语音数据(包括样本集中的TTS数据以及参考样本集中的自然语音数据)分别具有预先配置的每种情感的概率值,该TTS数据对应有文本特征样本以及第一声学特征。针对样本集中的每个TTS数据,根据该TTS数据对应的情感标签,从参考样本集中确定具有该TTS数据对应的情感标签的自然语音数据。基于每个TTS数据、每个TTS数据分别对应的文本特征样本、每个TTS数据分别对应的第一声学特征、以及每个TTS数据分别对应的自然语音数据,对原始语音合成模型、原始情感提取模型以及原始情感分类模型进行联合训练,以获取训练完成的语音合成模型以及情
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:针对第一样本集中的每个文本转语音TTS数据,该TTS数据对应有第一情感概率向量以及第一声学特征,其中,所述第一情感概率向量包括该TTS数据分别具有预先配置的每种情感的概率值;对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,其中,所述第一情感向量是基于该TTS数据所具有的情感对应的情感权重向量和预先配置的各个情感关联参数确定的,所述情感权重向量包含所述各个情感关联参数分别对应的权重值,所述各个情感关联参数为所述第一情感分类模型中用于确定该TTS数据所具有的情感的非语音方面的情感辅助向量;以及通过所述第一情感分类模型中包含的第二网络层,基于所述第一情感向量,确定该TTS数据对应的第二情感概率向量,其中,所述第二情感概率向量包括通过所述第一情感分类模型预测得到的该TTS数据分别具有预先配置的每种情感的概率值;基于所述第二情感概率向量以及对应的第一情感概率向量,对所述第一情感分类模型进行训练,以得到训练完成的第一情感分类模型,并根据训练完成的第一情感分类模型中包含的第一网络层,确定情感提取模型。2.根据权利要求1所述的方法,其特征在于,对于任一TTS数据,通过第一情感分类模型中包含的第一网络层,确定该TTS数据所具有的情感对应的第一情感向量,包括:通过所述第一网络层包含的特征提取层,基于该TTS数据对应的第一声学特征,获取所述特征提取层中最后一个子网络的输出数据;其中,所述输出数据为基于该TTS数据对应的第一声学特征提取到的情感特征;通过所述第一网络层包含的第一编码子网络,基于所述输出数据,获取该TTS数据对应的基础情感向量;其中,所述基础情感向量包含用于确定该TTS数据所具有的情感的语音方面的情感辅助向量;通过所述第一网络层包含的第二编码子网络,基于所述基础情感向量,获取该TTS数据所具有的情感对应的情感权重向量,并根据所述情感权重向量、以及所述第二编码子网络中预先配置的各个情感关联参数,确定该TTS数据所具有的情感对应的第一情感向量。3.根据权利要求1所述的方法,其特征在于,所述每个TTS数据分别对应的第一情感概率向量通过如下方式获取:针对每个TTS数据,通过预先训练的第二情感分类模型,基于该TTS数据对应的第一声学特征,确定该TTS数据对应的第一情感概率向量。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:针对每个TTS数据,通过预先训练的第二情感分类模型,基于该TTS数据对应的第一声学特征,获取所述第二情感分类模型中包含的各个第一目标网络的输出数据;并通过所述第一情感分类模型,基于该TTS数据对应的第一声学特征,获取所述特征提取层中包含的各个子网络的输出数据;其中,所述第一目标网络为所述第二情感分类模型中的部分网络,所述第一情感分类模型中的每子网络分别对应所述第二情感分类模型中的一个所述第一目标网络;所述基于所述第二情感概率向量以及对应的第一情感概率向量,对所述第一情感分类模型进行训练,包括:基于所述第二情感概率向量及其对应的第一情感概率向量、和所述各
个子网络的输出数据及所述各个子网络分别对应的第一目标网络的输出数据,对所述第一情感分类模型进行训练,以得到训练完成的第一情感分类模型。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述方法还包括:针对每个TTS数据,基于所述情感提取模型,获取该TTS数据所具有的情感的第二情感向量,其中,所述第二情感向量包含该TTS数据所具有的情感的情感特征;基于所述TTS数据对应的文本特征样本、所述TTS数据的第一声学特征、以及所述第二情感向量,对原始语音合成模型和所述情感提取模型进行联合训练,以获取目标语音合成模型和目标情感提取模型。6.根据权利要求5所述的方法,其特征在于,通过如下至少一种方式基于所述情感提取模型,获取该TTS数据所具有的情感的第二情感向量:通过所述情感提取模型,对任一具有该TTS数据对应的情感标签的随机语音数据进行处理,获取所述随机语音数据对应的参考情感向量;并将所述参考情感向量确定为所述第二情感向量,其中,所述随机语音数据不为所述第一样本集中的TTS数据,所述情感标签用于标识该TTS数据所具有的情感;根据所述第一样本集中具有该TTS数据对应的情感标签的各个TTS数据分别对应的参考情感向量,确定所述情感的第二情感向量,其中,所述参考情感向量是通过所述情感提取模型对具有所述情感的TTS数据进行处理得到的;根据该TTS数据对应的情感标签,确定该TTS数据所具有的情感;获取所述情感对应的情感权重向量;其中,所述情感权重向量是通过所述情感提取模型,对具有所述情感的任一语音数据进行处理得到的;对所述情感权重向量中包含的至少一个权重值进行调整;基于调整后的情感权重向量以及所述情感提取模型中包含的各个情感关联参数,确定所述情感的第二情感向量,其中,所述语音数据包括所述随机语音数据以及所述第一样本集中的TTS数据中的任一种;根据该TTS数据对应的情感标签,确定该TTS数据所具有的情感;基于所述情感对应的预设情感权重向量、以及所述情感提取模型中包含的各个情感关联参数,确定所述情感的第二情感向量。7.根据权利要求4所述的方法,其特征在于,所述第二情感分类模型通过如下方式获取:获取第二样本集中任一语音样本,其中,所述语音样本对应有第一情感标签以及语音类型标签,所述第一情感标签用于标识所述语音样本所具有的情感,所述语音类型标签用于标识所述语音样本所归属的语音类型,所述语音类型包括TTS类型以及语音情感识别SER类型中的至少一种;通过原始情感分类模型,基于所述语音样本对应的第二声学特征,确定所述语音样本对应的第三情感概率向量以及类型概率向量,其中,所述第三情感概率向量包括通过所述原始情感分类模型确定出的所述语音样本分别具有预先配置的每种情...
【专利技术属性】
技术研发人员:朱晓旭,张大成,李永强,
申请(专利权)人:北京猎户星空科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。