语音合成模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37991863 阅读:11 留言:0更新日期:2023-06-30 10:06
本公开关于一种语音合成模型训练方法、装置、电子设备及存储介质,包括:获取无标注的段落语音,通过第一模型对段落语音进行语音切分处理,得到多个单句语音;获取各个单句语音对应的单句文本,并通过第二模型对单句文本进行字音转换处理,得到各个单句语音各自对应的单句音素序列;将多个单句语音及各个单句语音各自对应的单句音素序列,作为标准长度训练数据,基于标准长度训练数据训练待训练的语音合成模型,得到训练完成的语音合成模型。该方法实现了基于无标注的段落语音构建训练数据,并且可实现训练数据中的单句音素序列和单句语音的自动化获取,提高语音合成模型的训练效率。率。率。

【技术实现步骤摘要】
语音合成模型训练方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,尤其涉及一种语音合成模型训练方法、装置、电子设备、存储介质及程序产品。

技术介绍

[0002]语音合成是一种将接收到的文字序列转换为自然逼真的语音波形的技术。目前,主流的语音合成方法为基于波形拼接的合成方法、基于统计声学建模的合成方法以及端到端的合成方法。其中,端到端的语音合成方法由于其结构相对简单,需要更少的专家知识,以及独立于语言等特点,成为当前的热点研究内容,在很多领域都取得了成功的应用。
[0003]但目前的端到端语音合成方法,在构建用于训练语音合成模型的语音数据库时,需要在专业的环境下(如录音棚)录制语音,且要保证录制语音的语速、语调、情感和能量等保持一致,还需要由专业标注团队对录制的语音进行文本、拼音以及韵律标注。因此,目前的语音合成模型训练时需要依赖于大量经过标注的语音数据,训练数据的准备效率较低,进而导致语音合成模型的训练效率较低。

技术实现思路

[0004]本公开提供一种语音合成模型训练方法、装置、电子设备、存储介质及程序产品,以至少解决相关技术中需要依赖于大量经过标注的语音数据,训练数据的准备效率较低,进而导致语音合成模型的训练效率较低的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种语音合成模型训练方法,包括:
[0006]获取无标注的段落语音,通过第一模型对所述段落语音进行语音切分处理,得到多个单句语音;
[0007]获取所述多个单句语音中各个单句语音对应的单句文本,并通过第二模型对所述单句文本进行字音转换处理,得到所述各个单句语音各自对应的单句音素序列;
[0008]将所述多个单句语音及所述各个单句语音各自对应的所述单句音素序列,作为标准长度训练数据,基于所述标准长度训练数据训练待训练的语音合成模型,得到训练完成的语音合成模型。
[0009]在一示例性实施例中,所述方法还包括:
[0010]对所述多个单句语音中的至少两个单句语音进行拼接处理得到对应的拼接语音,以及,对所述至少两个单句语音对应的所述单句音素序列进行拼接得到对应的拼接音素序列,基于所述拼接语音和所述拼接音素序列得到对应的长句训练数据;
[0011]对所述多个单句语音中的至少一个单句语音进行切分处理得到对应的切分语音,以及,对所述至少一个单句语音对应的所述单句音素序列进行切分得到对应的切分音素序列,基于所述切分语音和所述切分音素序列得到对应的短句训练数据;
[0012]所述基于所述标准长度训练数据训练待训练的语音合成模型,得到训练完成的语音合成模型,包括:
[0013]基于所述标准长度训练数据训练待训练的语音合成模型,得到经过预训练的语音合成模型;
[0014]基于所述标准长度训练数据、所述长句训练数据和所述短句训练数据,训练所述经过预训练的语音合成模型,得到训练完成的语音合成模型。
[0015]在一示例性实施例中,所述基于所述拼接语音和所述拼接音素序列得到对应的长句训练数据,包括:
[0016]对所述拼接语音进行静音的补全处理和/或裁剪处理,得到所述拼接语音对应的处理后拼接语音;其中,静音表示语音中不包含目标声音的部分,静音的补全处理表示在语音中添加静音,静音的裁剪处理表示丢弃语音中的部分静音;
[0017]将所述处理后拼接语音和所述拼接音素序列,作为所述长句训练数据。
[0018]在一示例性实施例中,所述对所述拼接语音进行静音的补全处理和/或裁剪处理,得到所述拼接语音对应的处理后拼接语音,包括:
[0019]对所述拼接语音的句首静音时长和句尾静音时长进行补全处理和/或裁剪处理,使所述拼接语音的句首静音时长和句尾静音时长相同;
[0020]以及,对组成所述拼接语音的相邻两个单句语音之间的静音时长进行补全处理或裁剪处理,使所述相邻两个单句语音之间的静音时长与每个单句语音中的两个音素之间的静音时长相同。
[0021]在一示例性实施例中,所述对所述多个单句语音中的至少一个单句语音进行切分处理得到对应的切分语音,以及,对所述至少一个单句语音对应的所述单句音素序列进行切分得到对应的切分音素序列,包括:
[0022]将所述多个单句语音各自对应的所述单句音素序列输入所述经过预训练的语音合成模型,得到所述单句音素序列的对齐信息;所述对齐信息表征所述单句音素序列的首尾静音时长及每个音素对应的语音长度;
[0023]根据所述对齐信息,对所述多个单句语音中的至少一个单句语音进行切分处理得到对应的切分语音,以及,根据所述对齐信息,对所述至少一个单句语音对应的所述单句音素序列进行切分得到对应的切分音素序列。
[0024]在一示例性实施例中,所述基于所述切分语音和所述切分音素序列得到对应的短句训练数据,包括:
[0025]对所述切分语音进行静音的补全处理和/或裁剪处理,得到所述切分语音对应的处理后切分语音;其中,静音表示语音中不包含目标声音的部分,静音的补全处理表示在语音中添加静音,静音的裁剪处理表示丢弃语音中的部分静音;
[0026]将所述处理后切分语音和所述切分音素序列,作为所述短句训练数据。
[0027]在一示例性实施例中,所述对所述切分语音进行静音的补全处理和/或裁剪处理,得到所述切分语音对应的处理后切分语音,包括:
[0028]对所述切分语音的句首静音时长和句尾静音时长进行补全处理和/或裁剪处理,使所述切分语音的句首静音时长和句尾静音时长相同。
[0029]在一示例性实施例中,所述基于所述标准长度训练数据、所述长句训练数据和所述短句训练数据,训练所述经过预训练的语音合成模型,得到训练完成的语音合成模型,包括:
[0030]通过所述短句训练数据,对所述经过预训练的语音合成模型进行训练,得到再训练后的语音合成模型;
[0031]通过所述标准长度训练数据、所述短句训练数据和所述长句训练数据,对所述再训练后的语音合成模型进行训练,直到得到训练完成的语音合成模型。
[0032]在一示例性实施例中,所述基于所述标准长度训练数据训练待训练的语音合成模型之前,还包括:
[0033]对所述段落语音进行风格提取,得到所述段落语音的全局语音风格信息;
[0034]所述基于所述标准长度训练数据训练待训练的语音合成模型,包括:
[0035]基于所述标准长度训练数据以及所述全局语音风格信息,对待训练的语音合成模型进行训练,得到经过预训练的语音合成模型。
[0036]在一示例性实施例中,所述对所述段落语音进行风格提取,得到所述段落语音的全局语音风格信息,包括:
[0037]获取所述段落语音对应的梅尔倒频谱;
[0038]基于所述梅尔倒频谱进行风格提取,得到所述段落语音的全局语音风格信息。
[0039]在一示例性实施例中,所述通过第一模型对所述段落语音进行语音切分处理,得到多个单句语音,包括:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型训练方法,其特征在于,包括:获取无标注的段落语音,通过第一模型对所述段落语音进行语音切分处理,得到多个单句语音;获取所述多个单句语音中各个单句语音对应的单句文本,并通过第二模型对所述单句文本进行字音转换处理,得到所述各个单句语音各自对应的单句音素序列;将所述多个单句语音及所述各个单句语音各自对应的所述单句音素序列,作为标准长度训练数据,基于所述标准长度训练数据训练待训练的语音合成模型,得到训练完成的语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述多个单句语音中的至少两个单句语音进行拼接处理得到对应的拼接语音,以及,对所述至少两个单句语音对应的所述单句音素序列进行拼接得到对应的拼接音素序列,基于所述拼接语音和所述拼接音素序列得到对应的长句训练数据;对所述多个单句语音中的至少一个单句语音进行切分处理得到对应的切分语音,以及,对所述至少一个单句语音对应的所述单句音素序列进行切分得到对应的切分音素序列,基于所述切分语音和所述切分音素序列得到对应的短句训练数据;所述基于所述标准长度训练数据训练待训练的语音合成模型,得到训练完成的语音合成模型,包括:基于所述标准长度训练数据训练待训练的语音合成模型,得到经过预训练的语音合成模型;基于所述标准长度训练数据、所述长句训练数据和所述短句训练数据,训练所述经过预训练的语音合成模型,得到训练完成的语音合成模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述拼接语音和所述拼接音素序列得到对应的长句训练数据,包括:对所述拼接语音进行静音的补全处理和/或裁剪处理,得到所述拼接语音对应的处理后拼接语音;其中,静音表示语音中不包含目标声音的部分,静音的补全处理表示在语音中添加静音,静音的裁剪处理表示丢弃语音中的部分静音;将所述处理后拼接语音和所述拼接音素序列,作为所述长句训练数据。4.根据权利要求3所述的方法,其特征在于,所述对所述拼接语音进行静音的补全处理和/或裁剪处理,得到所述拼接语音对应的处理后拼接语音,包括:对所述拼接语音的句首静音时长和句尾静音时长进行补全处理和/或裁剪处理,使所述拼接语音的句首静音时长和句尾静音时长相同;以及,对组成所述拼接语音的相邻两个单句语音之间的静音时长进行补全处理或裁剪处理,使所述相邻两个单句语音之间的静音时长与每个单句语音中的两个音素之间的静音时长相同。5.根据权利要求2所述的方法,其特征在于,所述对所述多个单句语音中的至少一个单句语音进行切分处理得到对应的切分语音,以及,对所述至少一个单句语音对应的所述单句音素序列进行切分得到对应的切分音素序列,包括:将所述多个单句语音各自对应的所述单句音素序列输入所述经过预训练的语音合成模型,得到所述单句音素序列的对齐信息;所述对齐信息表征所述单句音素序列的首尾静
音时长及每个音素对应的语音长度;根据所述对齐信息,对所述多个单句语音中的至少一个单句语音进行切分处理得到对应的切分语音,以及,根据所述对齐信息,对所述至少一个单句语音对应的所述单句音素序列进行切分得到对应的切分音素序列。6.根据权利要求2所述的方法,其...

【专利技术属性】
技术研发人员:强春雨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1