语音数据的处理方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:38465252 阅读:15 留言:0更新日期:2023-08-11 14:42
本公开提供了一种语音数据的处理方法、装置、电子设备和可读存储介质。其中,方法包括:获取目标说话人的人声标签和文本数据;将人声标签输入预先训练完成的音色生成模型,生成目标说话人的目标人声表征向量,其中,音色生成模型根据对多维先验概率分布进行采样的采样结果与人声标签生成目标人声表征向量;将目标人声表征向量和文本数据输入预先训练完成的语音合成模型,生成目标说话人的语音数据。该方式中,通过音色生成模型可以分类生成不同类型的人声和音色的目标人声表征向量;通过语音合成模型可以生成目标说话人的语音数据,从而控制目标说话人的语音数据的音色特点,提高说话人音色生成的可控性。话人音色生成的可控性。话人音色生成的可控性。

【技术实现步骤摘要】
语音数据的处理方法、装置、电子设备和可读存储介质


[0001]本公开涉及语音合成
,尤其是涉及一种语音数据的处理方法、装置、电子设备和可读存储介质。

技术介绍

[0002]语音是人类之间进行沟通的最自然最常用的形式,同时也是机器与人类之间交互的重要方式。语音中除了包含有语言的内容信息,同时也体现了说话人的音色、情感和说话风格等语义无关的信息。语音合成技术旨在根据输入文本信息来合成对应的语音。
[0003]但是在现有技术中,典型的语音合成技术只能合成训练数据中存在的说话人对应的语音,无法在合成过程提供训练数据之外新的说话人音色,无法满足一些应用场景的需求。此外,现有的音色生成方案通常说话人表征建模较为简单,所以较难在这个过程中对音色的特点进行控制,从而造成音色生成可控性不足的问题。

技术实现思路

[0004]有鉴于此,本公开提供了一种语音数据的处理方法、装置、电子设备和可读存储介质,以至少部分地解决音色生成可控性不足的问题。
[0005]第一方面,本公开实施例提供了一种语音数据的处理方法,方法包括:获取目标说本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音数据的处理方法,其特征在于,所述方法包括:获取目标说话人的人声标签和文本数据;将所述人声标签输入预先训练完成的音色生成模型,生成所述目标说话人的目标人声表征向量,其中,所述音色生成模型根据对多维先验概率分布进行采样的采样结果与所述人声标签生成所述目标人声表征向量;将所述目标人声表征向量和所述文本数据输入预先训练完成的语音合成模型,生成所述目标说话人的语音数据。2.根据权利要求1所述的方法,其特征在于,所述对多维先验概率分布进行采样的采样结果为多维采样向量。3.根据权利要求2所述的方法,其特征在于,所述多维采样向量与所述目标人声表征向量的维度相同。4.根据权利要求1所述的方法,其特征在于,所述人声标签包括人声分类标签和音色特征标签;将所述人声标签输入预先训练完成的音色生成模型,生成所述目标说话人的目标人声表征向量,包括:根据所述人声分类标签确定与所述人声分类标签对应的第一音色生成模型;所述第一音色生成模型是多个预先训练完成的音色生成模型中的一个;将所述音色特征标签输入所述第一音色生成模型,生成所述目标说话人的目标人声表征向量。5.根据权利要求4所述的方法,其特征在于,所述人声分类标签包括性别分类标签和年龄分类标签,所述音色特征标签包括预设的音色描述标签。6.根据权利要求1所述的方法,其特征在于,所述音色生成模型为非线性可逆变换流模型。7.根据权利要求1所述的方法,其特征在于,将所述目标人声表征向量和所述文本数据输入预先训练完成的语音合成模型,生成所述目标说话人的语音数据,包括:将所述文本数据输入预先训练完成的语音合成模型的第一子模型,通过所述第一子模型生成所述文本数据的瓶颈特征;将所述目标人声表征向量和所述瓶颈特征输入所述语音合成模型的第二子模型,通过所述第二子模型生成所述目标说话人的语音数据。8.根据权利要求7所述的方法,其特征在于,所述瓶颈特征包括帧级语义特征。9.根据权利要求1所述的方法,其特征在于,获取目标说话人的文本数据,包括:获取目标说话人的目标文本,基于预先训练完成的文本处理模块获取所述目标文本的文本数据,所述文本数据包括音素数据。10.根据权利要求1所述的方法,其特征在于,预先训练所述音色生成模型的过程包括:获取第一样本人声表征向量和第一样本标注,将所述第一样本人声表征向量和所述第一样本标注输入所述音色生成模型;所述第一样本标注包括所述第一样本人声表征向量的人声标注;所述音色生成模型对所述第一样本人声表征向量进行变换,使经过变换后的所述第一样本人声表征向量服从所述多维先验概率分布;根据经过变换后的第一样本人声表征向量与所述多维先验概率分布计算第一损失函
数;以所述第一损失函数最小化为训练目标,调整所述音色生成模型的模型参数,得到对应于所述第一样本标注的训练完成的所述音色生成模型。11.根据权利要求10所述的方法,其特征在于,所述第一样本人声表征向量的人声标注包括人声分类标注和音色特征标注。12.根据权利要求11所述的方法,其特征在于,预先根据所述人声分类标注分别建立不同的待训练音色生成模型;将所述第一样本标注输入所述音色生成模型,包括:根据所述人声分类标注确认目标待训练音色生成模型;将所述音色特征标注输入所述目标待训练音色生成模型。13.根据权利要求10所述的方法,其特征在于,所述多维先验概率分布为高斯分布。14.根据权利要求13所述的方法,其特征在于,根据经过变换后的第一样本人声表征向量与所述多维先验概率分布计算第一损失函数,包括:计算经过变换后的第一样本人声表征向量与所述高斯分布的相对熵,将所述相对熵作为第一损失函数。15.根据权利要求10所述的方法,其特征在于,所述音色生成模型包括非线性可逆变换流模型,所述流模型为多层堆叠结构,所述流模型的每一...

【专利技术属性】
技术研发人员:朱鹏程张雍茂毕梦霄郭帅张晴薛鹤洋胡志鹏吕唐杰
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1