一种语音合成模型的训练方法及装置制造方法及图纸

技术编号:29079618 阅读:17 留言:0更新日期:2021-06-30 09:39
本发明专利技术实施例中一种语音合成模型的训练方法及装置,包括:对历史语音合成模型进行训练,得到多说话人模型;获取当前训练数据中的当前说话人ID和当前输入文本,其中,当前输入文本的数据量少于多说话人模型在训练过程中历史输入文本的数据量,当前输入文本的音素以韵母为单位;基于多说话人模型、当前说话人ID和当前输入文本对当前语音合成模型进行训练。上述的训练过程中,由于多说话人模型已经预先经过训练可以提高训练过程中的准确度,即使在输入文本数据量减少时,由于输入文本以韵母为单位,输入文本的音素数量不会减少,进一步保证了语音识别的精度,避免了现有技术中由于输入文本包含的因素音素特征少,导致语音合成的精度低的问题。精度低的问题。精度低的问题。

【技术实现步骤摘要】
一种语音合成模型的训练方法及装置


[0001]本专利技术涉及智能语音
,尤其涉及一种语音合成模型的训练方法及装置。

技术介绍

[0002]语音合成是从文本到语音的过程,文本输入到声学模型得到声学特征,再输入到合成器,得到音频,其中,现有技术中采用高并行声学模型FPUTS(Fully Parallel UFANS

based End

to

End Text

to

Speech System)进行语音合成,FTPUS声学模型的示意图如图1所示,其中,编码器,对齐模块,解码器均为神经网络构成。一般的生成音频过程为:从说话人的ID(例如0

100)得到说话人矢量(是一个N维的向量,不同说话人有不同的说话人矢量);说话人矢量和文本输入编码器进行编码;说话人和文本输入对齐模块得到音频的发音时长信息(这个模块决定了最终音频的发音时长,说话语速等);发音时间信息以及编码器出来的编码进入到解码器进行解码,得到最终音频。
[0003]FPTUS模型需要预先进行训练,训练完成后,才可以进行语音识别,针对PTPUS的训练过程如图2所示,第一步是训练对齐模块。见图2(a)。此时模型主要结构为说话人矢量,编码器,对齐模块和一个结构非常简单的解码器(解码器结构简单对训练对齐模块非常重要)。配合数据进行训练得到训练好的对齐模块;第二步是训练说话人矢量,编码器和解码器。见图2(b),模型主要构成为编码器,从第一步中训练好的对齐模块,(复杂以及最终的)解码器。此处对齐模块固定,不参与训练。
[0004]专利技术人对FPTUS模型的训练过程进行研究发现,当输入文本较短时,由于输入文本的数据量少,在以字为单位划分音素时,输入文本包含的音素特征少,导致训练过程中,语音合成的精度低。

技术实现思路

[0005]有鉴于此,本专利技术提供了一种语音合成模型的训练方法及装置,用以解决现有技术中对FPTUS模型的训练过程中,当输入文本较短时,由于输入文本的数据量少,在以字为单位划分音素时,输入文本包含的音素特征少,导致语音合成的精度低的问题。具体方案如下:
[0006]一种语音合成模型的训练方法,包括:
[0007]对历史语音合成模型进行训练,得到多说话人模型;
[0008]获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
[0009]基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。
[0010]上述的方法,可选的,对历史语音合成模型进行训练,得到多说话人模型,其中,所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一
历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,训练过程包括:
[0011]获取训练数据中的历史说话人ID和历史输入文本;
[0012]基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;
[0013]基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练,得到第二说话人模型。
[0014]上述的方法,可选的,还包括:
[0015]所述历史输入文本中的音素以字为单位。
[0016]上述的方法,可选的,基于所述多说话人模型、所述说话人ID和所述输入文本对当前语音合成模型进行训练,其中,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,训练过程包括:
[0017]对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;
[0018]采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练,得到目标当前对齐模块;
[0019]基于所述第二说话人模型和所述当前说话人ID,确定第二说话人矢量,采用所述第二说话人矢量,所述当前输入文本,所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。
[0020]上述的方法,可选的,还包括:
[0021]获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果;
[0022]将所述第一训练结果赋给所述第一当前解码器作为初始值;
[0023]将所述第二训练结果赋给所述第二当前解码器作为初始值。
[0024]一种语音合成模型的训练装置,包括:
[0025]第一训练模块,用于对历史语音合成模型进行训练,得到多说话人模型;
[0026]获取模块,用于获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;
[0027]第二训练模块,用于基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。
[0028]上述的装置,可选的,所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,所述第一训练模块包括:
[0029]第一获取单元,用于获取训练数据中的历史说话人ID和历史输入文本;
[0030]第一训练单元,用于基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模
块;
[0031]第二训练单元,用于基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练,得到第二说话人模型。
[0032]上述的装置,可选的,还包括:
[0033]所述历史输入文本中的音素以字为单位。
[0034]上述的装置,可选的,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,所述第二训练模块包括:
[0035]确定单元,用于对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;
[0036]第三训练单元,用于采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成模型的训练方法,其特征在于,包括:对历史语音合成模型进行训练,得到多说话人模型;获取当前训练数据中的当前说话人ID和当前输入文本,其中,所述当前输入文本的数据量少于所述多说话人模型在训练过程中历史输入文本的数据量,所述当前输入文本的音素以韵母为单位;基于所述多说话人模型、所述当前说话人ID和所述当前输入文本对当前语音合成模型进行训练。2.根据权利要求1所述的方法,其特征在于,对历史语音合成模型进行训练,得到多说话人模型,其中,所述历史语音合成模型包括:历史编码器、历史解码器和历史对齐模块,所述解码器包括第一历史解码器和第二历史解码器;所述多说话人模型包括:第一说话人模型和第二说话人模型,训练过程包括:获取训练数据中的历史说话人ID和历史输入文本;基于所述历史说话人ID,确定历史说话人矢量,基于所述历史说话人矢量,所述历史输入文本,所述历史编码器和所述历史第一解码器对所述历史对齐模块进行训练,得到第一说话人模型,其中,所述第一说话人模型中包括:历史目标对齐模块;基于所述历史说话人矢量,所述历史输入文本,所述历史编码器、所述第二历史解码器和所述目标历史对齐模块进行训练,得到第二说话人模型。3.根据权利要求2所述的方法,其特征在于,还包括:所述历史输入文本中的音素以字为单位。4.根据权利要求2所述的方法,其特征在于,基于所述多说话人模型、所述说话人ID和所述输入文本对当前语音合成模型进行训练,其中,所述当前语音合成模型包括:当前编码器、当前解码器和当前对齐模块,所述解码器包括第一当前解码器和第二当前解码器,训练过程包括:对所述第一说话人模型和所述当前说话人ID进行线性组合,确定第一说话人矢量;采用所述第一说话人矢量,所述当前输入文本,所述当前编码器和所述第一当前解码器对所述当前对齐模块进行训练,得到目标当前对齐模块;基于所述第二说话人模型和所述当前说话人ID,确定第二说话人矢量,采用所述第二说话人矢量,所述当前输入文本,所述当前编码器、所述第二当前解码器和所述目标当前对齐模块训练所述第二说话人矢量、所述当前编码器和所述第二当前解码器。5.根据权利要求4所述的方法,其特征在于,还包括:获取所述第一说话人模型中的第一历史解码器第一训练结果和所述第二说话人模型中第二历史解码器的第二训练结果;将所述第一训练结果赋给所述第一当前解码器作为初始值;将所述第二训练结果赋给所述第二当前解码器作为初始值。6.一种语音合成模型的训练装置,其特征在于,包括:第一训练...

【专利技术属性】
技术研发人员:黄选平马达标
申请(专利权)人:重庆度小满优扬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1