基于小样本学习的语音合成方法、装置及存储介质制造方法及图纸

技术编号:39001527 阅读:26 留言:0更新日期:2023-10-07 10:33
本申请涉及语音合成技术领域,尤其涉及一种基于小样本学习的语音合成方法、装置及存储介质。所述方法包括:获取目标对象的目标语音数据;根据目标语音数据,通过预先训练得到的声纹特征提取器提取目标声纹特征矢量,目标声纹特征矢量指示目标对象的音色;根据目标语音数据和目标声纹特征矢量进行小样本学习,得到端到端语音合成模型,目标声纹特征矢量用于调整端到端语音合成模型中的归一化层的参数,端到端语音合成模型用于进行语音合成。本申请实施例通过将端到端语音合成模型与声纹特征提取器相结合的方法,使得在小样本条件下能够合成自然的语音,保证合成的语音音色与目标对象的音色更加相似,提高了个性化语音合成的效率和效果。和效果。和效果。

【技术实现步骤摘要】
基于小样本学习的语音合成方法、装置及存储介质


[0001]本申请涉及语音合成
,尤其涉及一种基于小样本学习的语音合成方法、装置及存储介质。

技术介绍

[0002]语音合成技术目前被广泛应用于各类语音交互场景中。传统的语音合成技术通常包括两个部分:声学模型(英文:acoustic model)和声码器(英文:vocoder)。声学模型用于将输入的文本或音素序列转换为频谱特征(例如梅尔频谱),声码器负责用于将声学模型转换得到的频谱特征还原为音频。在这种框架下,由于声学模型和声码器两个部分是独立训练的,因此在进行语音合成时会存在不匹配的问题,影响合成语音的效果。
[0003]针对上述语音合成问题,出现了端到端语音合成技术。在端到端语音合成技术中,不再划分声学模型和声码器两个部分,而是从文本或音素序列直接合成音频。相比前者,端到端语音合成技术得到语音具有更高的自然度。在语音合成技术的基础上,个性化语音合成允许对某人的音色进行复刻。例如,在车载应用中,如果能够让人机交互系统使用驾驶者亲人的音色与之进行交互,将有助于提升人机交互效果。在这类应本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的语音合成方法,其特征在于,所述方法包括:获取目标对象的目标语音数据;根据所述目标语音数据,通过预先训练得到的声纹特征提取器提取目标声纹特征矢量,所述目标声纹特征矢量指示所述目标对象的音色;根据所述目标语音数据和所述目标声纹特征矢量进行小样本学习,得到端到端语音合成模型,所述目标声纹特征矢量用于调整所述端到端语音合成模型中的归一化层的参数,所述端到端语音合成模型用于进行语音合成。2.根据权利要求1所述的方法,其特征在于,所述目标语音数据包括多组目标文本音频对,每组所述目标文本音频对包括目标文本和对应的所述目标对象的音频数据;所述根据所述目标语音数据,通过预先训练得到的声纹特征提取器提取目标声纹特征矢量,包括:对于每组所述目标文本音频对,将所述目标文本转换为对应的目标音素序列,并通过预先训练得到的所述声纹特征提取器将所述目标对象的音频数据转化为所述目标声纹特征矢量;所述根据所述目标语音数据和所述目标声纹特征矢量进行小样本学习,得到端到端语音合成模型,包括:根据多组所述目标音素序列和所述目标声纹特征矢量进行小样本学习,得到所述端到端语音合成模型。3.根据权利要求1所述的方法,其特征在于,所述端到端语音合成模型中的归一化层的参数包括:所述端到端语音合成模型中的时长预测器,先验后验转换器、后验编码器和后验解码器各自的归一化层的参数,所述时长预测器用于预测输入的每个音素的持续时长,所述先验后验转换器用于将在音素编码空间和音频编码空间之间相互转换,所述后验编码器用于将输入的语音数据转换到目标维度的音频编码空间,所述后验解码器用于将音频编码序列还原为对应的语音数据。4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述目标语音数据和所述目标声纹特征矢量进行小样本学习,得到端到端语音合成模型之后,还包括:存储所述目标声纹特征矢量和调整后的所述端到端语音合成模型的参数。5.根据权利要求1至3任一所述的方法,其特征在于,所述获取目标对象的目标语音数据之前,还包括:获取第一训练数据集,所述第一训练数据集包括多组第一样本数据,每组所述第一样本数据包括音频数据和对应的对象标识;根据所述第一训练数据集训练所述声纹特征提取器,所述声纹特征提取器为用于将输入的音频数据转化为声纹特征矢量的神经网络模型;获取第二训练数据集,所述第二训练数据集包括多组第二样本数据,每组所述第二样本数据包括样本文本和对应的样本对象的音频数据,所述样本对象为除所述目标对象以外的其他对象;根据所述第二训练数据集和所述声纹特征提取器,训练所述端到端语音合成模型;在训练完成后,存储训练得到的所述声纹特征提取器和所述端到端语音合成模型的参数。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二训练数据集和所述声纹特征提取器,训练所述端到端语音合成模型,包括:对于每组所述第二样本数据,将所述样本文本转换为对应的样本音素序列,并通过所述声纹特征提取器将所述样...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1