语音风格提取模型训练方法、语音合成方法、装置及介质制造方法及图纸

技术编号:37331143 阅读:11 留言:0更新日期:2023-04-21 23:08
本公开涉及计算机技术领域,具体涉及一种语音风格提取模型训练方法、语音合成方法、语音风格提取模型训练装置、语音合成装置、计算机可读存储介质及电子设备,语音风格提取模型训练方法包括:获取参考语音样本;进行数据增强处理得到对抗语音样本;得到合成语音样本;将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理,得到预测参考风格特征、预测对抗风格特征、预测合成风格特征;确定对抗损失函数,确定一致性损失函数;对待训练的语音风格提取模型的参数进行更新。通过本公开实施例的技术方案,可以解决现有技术中实现对象风格转移任务的准确率较低的问题。移任务的准确率较低的问题。移任务的准确率较低的问题。

【技术实现步骤摘要】
语音风格提取模型训练方法、语音合成方法、装置及介质


[0001]本公开涉及计算机
,具体而言,涉及语音风格提取模型训练方法、语音合成方法、语音风格提取模型训练装置、语音合成装置、计算机可读存储介质及电子设备。

技术介绍

[0002]随着软硬件的快速发展,语音合成技术的应用领域逐渐增加。例如,在公共场合(医院、银行)的语音播报系统、有声读物(电子小说、电子讲解系统等)、地图导航、信息查询系统(自动问答)等领域,语音合成技术的应用越来越普遍。语音合成技术通过将接收到的文字序列转换为自然逼真的语音波形,反馈传递给用户。因此语音合成技术直接影响着人机交互的实际使用效果。语音合成技术涉及语音信号处理、模式识别、自然语言处理、声学、语言学等多个学科,是信息处理领域不可或缺的一门关键技术。
[0003]在相关技术中,针对一些对象风格转移任务,在进行模型训练时,需要大量的样本以及对应的风格标签,其构建样本的成本较高;此外,在构建风格标签时,可能出现标注错误的问题,导致训练得到的对象风格转移模型的可靠性较差,从而导致进行对象风格转移任务的准确率较低。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种语音风格提取模型训练方法、语音风格提取模型训练装置、语音合成方法、语音合成装置、计算机可读存储介质及电子设备,可以解决现有技术中实现对象风格转移任务的准确率较低的问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的第一方面,提供了一种语音风格提取模型训练方法,包括:获取参考语音样本;其中,参考语音样本对应有参考语音风格;对参考语音样本的语音属性进行数据增强处理得到对抗语音样本;将参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本;其中,目标对象的标识信息对应有目标语音音色,合成语音样本对应有参考语音风格以及目标语音音色,语音合成模型用于输出具有参考语音风格以及目标语音音色的语音;将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理,得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征;根据预测参考风格特征和预测对抗风格特征确定对抗损失函数,根据预测参考风格特征和预测合成风格特征确定一致性损失函数;根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新,以得到训练完成的语音风格提取模型。
[0008]可选的,基于前述方案,待训练的语音风格提取模型中包括风格瓶颈网络,风格瓶
颈网络包括卷积子网络与特征压缩子网络,将参考语音样本、对抗语音样本以及合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理,得到参考语音样本对应的预测参考风格特征、对抗语音样本对应的预测对抗风格特征、合成语音样本对应的预测合成风格特征,包括:将参考语音样本、对抗语音样本以及合成语音样本依次输入卷积子网络与特征压缩子网络进行风格特征提取,得到参考语音样本对应的压缩参考风格特征、对抗语音样本对应的压缩对抗风格特征以及合成语音样本对应的压缩合成风格特征;根据压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理,得到参考语音样本对应的第一候选参考风格特征、对抗语音样本对应的第一候选对抗风格特征以及合成语音样本对应的第一候选合成风格特征;确定第一候选参考风格特征对应的高斯分布,确定第一候选对抗风格特征对应的高斯分布,确定第一候选合成风格特征对应的高斯分布;对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征,对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征。
[0009]可选的,基于前述方案,待训练的语音风格提取模型中包括离散码本组件,离散码本组件中包括多个离散风格特征,对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的预测参考风格特征,对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的预测对抗风格特征、对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的预测合成风格特征,包括:对第一候选参考风格特征对应的高斯分布进行采样得到参考语音样本对应的第二候选参考风格特征,将第二候选参考风格特征与各离散风格特征进行比较,将多个离散风格特征中与第二候选参考风格特征的距离满足预设条件的离散风格特征确定为参考语音样本对应的预测参考风格特征;其中,离散风格特征用于指示语音风格;对第一候选对抗风格特征对应的高斯分布进行采样得到对抗语音样本对应的第二候选对抗风格特征,将第二候选对抗风格特征与各离散风格特征进行比较,将多个离散风格特征中与第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为对抗语音样本对应的预测对抗风格特征;对第一候选合成风格特征对应的高斯分布进行采样得到合成语音样本对应的第二候选合成风格特征,将第二候选合成风格特征与各离散风格特征进行比较,将多个离散风格特征中与第二候选合成风格特征的距离满足预设条件的离散风格特征确定为合成语音样本对应的预测合成风格特征。
[0010]可选的,基于前述方案,根据预测参考风格特征和预测对抗风格特征确定对抗损失函数,包括:根据预测参考风格特征和预测对抗风格特征确定对抗差异,根据对抗差异确定对抗损失函数;其中,对抗损失函数用于使对抗差异在待训练的语音风格提取模型的训练过程中增大。
[0011]可选的,基于前述方案,根据预测参考风格特征和预测合成风格特征确定一致性损失函数,包括:根据预测参考风格特征和预测合成风格特征确定一致性差异,根据一致性差异确定一致性损失函数;其中,一致性损失函数用于使一致性差异在待训练的语音风格提取模型的训练过程中减小。
[0012]可选的,基于前述方案,根据对抗损失函数以及一致性损失函数对待训练的语音风格提取模型的参数进行更新,包括:将预测参考风格特征输入对象分类器得到预测对象的标识信息;其中,预测参考风格特征对应有对象的标识标签,对象分类器用于对语音对应的对象的标识信息进行分类;根据预测对象的标识信息与对象的标识标签确定对象标识预测差异,根据对象标识预测差异确定对象标识分类损失函数;对对象标识分类损失函数进行梯度反转处理得到对象标识未分类损失函数;根据对抗损失函数、一致性损失函数以及对象标识未分类损失函数对待训练的语音风格提取模型的参数进行更新。
[0013]可选的,基于前述方案,语音属性包括音调、能量和时长中的一种或多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音风格提取模型训练方法,其特征在于,所述方法包括:获取参考语音样本;其中,所述参考语音样本对应有参考语音风格;对所述参考语音样本的语音属性进行数据增强处理得到对抗语音样本;将所述参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本;其中,所述目标对象的标识信息对应有目标语音音色,所述合成语音样本对应有参考语音风格以及目标语音音色,所述语音合成模型用于输出具有参考语音风格以及目标语音音色的语音;将所述参考语音样本、所述对抗语音样本以及所述合成语音样本输入待训练的语音风格提取模型进行风格编码处理,得到所述参考语音样本对应的预测参考风格特征、所述对抗语音样本对应的预测对抗风格特征、所述合成语音样本对应的预测合成风格特征;根据所述预测参考风格特征和预测对抗风格特征确定对抗损失函数,根据所述预测参考风格特征和预测合成风格特征确定一致性损失函数;根据所述对抗损失函数以及所述一致性损失函数对所述待训练的语音风格提取模型的参数进行更新,以得到训练完成的语音风格提取模型。2.根据权利要求1所述的方法,其特征在于,所述待训练的语音风格提取模型中包括风格瓶颈网络,所述风格瓶颈网络包括卷积子网络与特征压缩子网络,所述将所述参考语音样本、所述对抗语音样本以及所述合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理,得到所述参考语音样本对应的预测参考风格特征、所述对抗语音样本对应的预测对抗风格特征、所述合成语音样本对应的预测合成风格特征,包括:将所述参考语音样本、所述对抗语音样本以及所述合成语音样本依次输入所述卷积子网络与所述特征压缩子网络进行风格特征提取,得到所述参考语音样本对应的压缩参考风格特征、所述对抗语音样本对应的压缩对抗风格特征以及所述合成语音样本对应的压缩合成风格特征;根据所述压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息,对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理,得到所述参考语音样本对应的第一候选参考风格特征、所述对抗语音样本对应的第一候选对抗风格特征以及所述合成语音样本对应的第一候选合成风格特征;确定所述第一候选参考风格特征对应的高斯分布,确定所述第一候选对抗风格特征对应的高斯分布,确定所述第一候选合成风格特征对应的高斯分布;对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的预测参考风格特征,对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的预测对抗风格特征、对所述第一候选合成风格特征对应的高斯分布进行采样得到所述合成语音样本对应的预测合成风格特征。3.根据权利要求2所述的方法,其特征在于,所述待训练的语音风格提取模型中包括离散码本组件,所述离散码本组件中包括多个离散风格特征,所述离散风格特征用于指示语音风格;所述对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的预测参考风格特征,对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的预测对抗风格特征、对所述第一候选合成风格特征对应的高斯分
布进行采样得到所述合成语音样本对应的预测合成风格特征,包括:对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的第二候选参考风格特征,将所述第二候选参考风格特征与各所述离散风格特征进行比较,将多个所述离散风格特征中与所述第二候选参考风格特征的距离满足预设条件的离散风格特征确定为所述参考语音样本对应的预测参考风格特征;对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的第二候选对抗风格特征,将所述第二候选对抗风格特征与各所述离散风格特征进行比较,将多个所述离散风格特征中与所述第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为所述对抗语音样本对应的预测对抗风格特征;对所述第一候选合成风格特征对应的高斯分布进行采样得到所述合成语音样本对应的第二候选合成风格特征,将所述第二候选合成风格特征与各所述离散风格特征进行比较,将多个所述离散风格特征中与所述第二候选合成风格特征的距离满足预设条件的离散风格特征确定为所述合成语音样本对应的预测合成风格特征。4.根据权利要求1所述的方法,其特征在于,所述根据所述预测参考风格特征和预测对抗风格特征确定对抗损失函数,包括:根据所述预测参考风格特征和所述预...

【专利技术属性】
技术研发人员:强春雨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1