【技术实现步骤摘要】
语音风格提取模型训练方法、语音合成方法、装置及介质
[0001]本公开涉及计算机
,具体而言,涉及语音风格提取模型训练方法、语音合成方法、语音风格提取模型训练装置、语音合成装置、计算机可读存储介质及电子设备。
技术介绍
[0002]随着软硬件的快速发展,语音合成技术的应用领域逐渐增加。例如,在公共场合(医院、银行)的语音播报系统、有声读物(电子小说、电子讲解系统等)、地图导航、信息查询系统(自动问答)等领域,语音合成技术的应用越来越普遍。语音合成技术通过将接收到的文字序列转换为自然逼真的语音波形,反馈传递给用户。因此语音合成技术直接影响着人机交互的实际使用效果。语音合成技术涉及语音信号处理、模式识别、自然语言处理、声学、语言学等多个学科,是信息处理领域不可或缺的一门关键技术。
[0003]在相关技术中,针对一些对象风格转移任务,在进行模型训练时,需要大量的样本以及对应的风格标签,其构建样本的成本较高;此外,在构建风格标签时,可能出现标注错误的问题,导致训练得到的对象风格转移模型的可靠性较差,从而导致进行对象风格转移任务的准确率较低。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
[0005]本公开的目的在于提供一种语音风格提取模型训练方法、语音风格提取模型训练装置、语音合成方法、语音合成装置、计算机可读存储介质及电子设备,可以解决现有技术中实现对象风格转移任务的准确 ...
【技术保护点】
【技术特征摘要】
1.一种语音风格提取模型训练方法,其特征在于,所述方法包括:获取参考语音样本;其中,所述参考语音样本对应有参考语音风格;对所述参考语音样本的语音属性进行数据增强处理得到对抗语音样本;将所述参考语音样本、目标对象的标识信息以及文本序列输入语音合成模型得到合成语音样本;其中,所述目标对象的标识信息对应有目标语音音色,所述合成语音样本对应有参考语音风格以及目标语音音色,所述语音合成模型用于输出具有参考语音风格以及目标语音音色的语音;将所述参考语音样本、所述对抗语音样本以及所述合成语音样本输入待训练的语音风格提取模型进行风格编码处理,得到所述参考语音样本对应的预测参考风格特征、所述对抗语音样本对应的预测对抗风格特征、所述合成语音样本对应的预测合成风格特征;根据所述预测参考风格特征和预测对抗风格特征确定对抗损失函数,根据所述预测参考风格特征和预测合成风格特征确定一致性损失函数;根据所述对抗损失函数以及所述一致性损失函数对所述待训练的语音风格提取模型的参数进行更新,以得到训练完成的语音风格提取模型。2.根据权利要求1所述的方法,其特征在于,所述待训练的语音风格提取模型中包括风格瓶颈网络,所述风格瓶颈网络包括卷积子网络与特征压缩子网络,所述将所述参考语音样本、所述对抗语音样本以及所述合成语音样本分别输入待训练的语音风格提取模型进行风格编码处理,得到所述参考语音样本对应的预测参考风格特征、所述对抗语音样本对应的预测对抗风格特征、所述合成语音样本对应的预测合成风格特征,包括:将所述参考语音样本、所述对抗语音样本以及所述合成语音样本依次输入所述卷积子网络与所述特征压缩子网络进行风格特征提取,得到所述参考语音样本对应的压缩参考风格特征、所述对抗语音样本对应的压缩对抗风格特征以及所述合成语音样本对应的压缩合成风格特征;根据所述压缩参考风格特征对应的参考语音样本的对象的标识信息、压缩对抗风格特征对应对抗语音样本的对象的标识信息以及压缩合成风格特征对应的合成语音样本对象的标识信息,对压缩参考风格特征、压缩对抗风格特征以及压缩合成风格特征进行批量归一化处理,得到所述参考语音样本对应的第一候选参考风格特征、所述对抗语音样本对应的第一候选对抗风格特征以及所述合成语音样本对应的第一候选合成风格特征;确定所述第一候选参考风格特征对应的高斯分布,确定所述第一候选对抗风格特征对应的高斯分布,确定所述第一候选合成风格特征对应的高斯分布;对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的预测参考风格特征,对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的预测对抗风格特征、对所述第一候选合成风格特征对应的高斯分布进行采样得到所述合成语音样本对应的预测合成风格特征。3.根据权利要求2所述的方法,其特征在于,所述待训练的语音风格提取模型中包括离散码本组件,所述离散码本组件中包括多个离散风格特征,所述离散风格特征用于指示语音风格;所述对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的预测参考风格特征,对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的预测对抗风格特征、对所述第一候选合成风格特征对应的高斯分
布进行采样得到所述合成语音样本对应的预测合成风格特征,包括:对所述第一候选参考风格特征对应的高斯分布进行采样得到所述参考语音样本对应的第二候选参考风格特征,将所述第二候选参考风格特征与各所述离散风格特征进行比较,将多个所述离散风格特征中与所述第二候选参考风格特征的距离满足预设条件的离散风格特征确定为所述参考语音样本对应的预测参考风格特征;对所述第一候选对抗风格特征对应的高斯分布进行采样得到所述对抗语音样本对应的第二候选对抗风格特征,将所述第二候选对抗风格特征与各所述离散风格特征进行比较,将多个所述离散风格特征中与所述第二候选对抗风格特征的距离满足预设条件的离散风格特征确定为所述对抗语音样本对应的预测对抗风格特征;对所述第一候选合成风格特征对应的高斯分布进行采样得到所述合成语音样本对应的第二候选合成风格特征,将所述第二候选合成风格特征与各所述离散风格特征进行比较,将多个所述离散风格特征中与所述第二候选合成风格特征的距离满足预设条件的离散风格特征确定为所述合成语音样本对应的预测合成风格特征。4.根据权利要求1所述的方法,其特征在于,所述根据所述预测参考风格特征和预测对抗风格特征确定对抗损失函数,包括:根据所述预测参考风格特征和所述预...
【专利技术属性】
技术研发人员:强春雨,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。