声学模型训练与语音合成方法、装置和系统及存储介质制造方法及图纸

技术编号:32968778 阅读:18 留言:0更新日期:2022-04-09 11:30
本发明专利技术提供一种声学模型训练与语音合成方法、装置和系统及存储介质。训练方法包括:获取文本信息和初始真实声学信息,文本信息包括训练文本或与训练文本相关的文本特征序列,初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列;将文本信息输入声学模型,以获得声学模型输出的初始预测声学信息,初始预测声学信息与初始真实声学信息的形式一致;将初始真实声学信息和初始预测声学信息分别输入判别器,以获得判别器输出的真实判别结果和预测判别结果;至少基于真实判别结果和预测判别结果,对声学模型和判别器进行对抗训练。该方法可以提高训练获得的声学模型的性能,使其生成更准确、真实的声学信息。真实的声学信息。真实的声学信息。

【技术实现步骤摘要】
声学模型训练与语音合成方法、装置和系统及存储介质


[0001]本专利技术涉及语音处理
,具体地,涉及一种声学模型训练方法、装置和系统及存储介质与一种语音合成方法、装置和系统及存储介质。

技术介绍

[0002]语音合成技术是一种将文字信息转化为声音信息的技术。语音合成技术可以为广大用户及目标应用提供语音合成服务。语音合成系统在如今有着较为广泛的应用。
[0003]语音合成需要用到声学模型来实现文本到语音的转换。在采用声学模型进行语音合成之前,通常需要对声学模型进行训练。
[0004]现有的声学模型在训练时,都是通过直接计算声学模型生成的预测声学信息与真实声学信息之间的差距来调整模型参数。这种训练方式相对比较简单,训练获得的声学模型性能不够好。

技术实现思路

[0005]为了至少部分地解决现有技术中存在的问题,提供一种声学模型训练方法、装置和系统及存储介质与一种语音合成方法、装置和系统及存储介质。
[0006]根据本专利技术一个方面,提供一种声学模型训练方法,包括:获取文本信息和初始真实声学信息,文本信息包括训练文本或与训练文本相关的文本特征序列,初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列;将文本信息输入声学模型,以获得声学模型输出的初始预测声学信息,其中,初始预测声学信息与初始真实声学信息的形式一致;将初始真实声学信息和初始预测声学信息分别输入判别器,以获得判别器输出的真实判别结果和预测判别结果,真实判别结果与初始真实声学信息相对应,预测判别结果与初始预测声学信息相对应;以及至少基于真实判别结果和预测判别结果,对声学模型和判别器进行对抗训练。
[0007]示例性地,至少基于真实判别结果和预测判别结果,对声学模型和判别器进行对抗训练包括:在声学模型固定的情况下,执行判别器训练操作,并在判别器固定的情况下,执行声学模型训练操作;其中,判别器训练操作包括:基于真实判别结果计算真实损失;基于预测判别结果计算预测损失;基于真实损失和预测损失计算判别器损失;基于判别器损失对判别器的参数进行优化;其中,声学模型训练操作包括:基于初始真实声学信息和初始预测声学信息计算信息损失;基于预测判别结果计算对抗损失;基于信息损失和对抗损失计算生成器损失;基于生成器损失对声学模型的参数进行优化。
[0008]示例性地,判别器包括n个子判别器,n为大于1的正整数,将初始真实声学信息和初始预测声学信息分别输入判别器,以获得判别器输出的真实判别结果和预测判别结果包括:对初始真实声学信息分别进行n

1个降采样操作,以分别获得n

1组降采样真实声学信息,其中,n

1个降采样操作中的任意两个降采样操作的降采样尺度不同;对初始预测声学信息分别进行n

1个降采样操作,以分别获得n

1组降采样预测声学信息;将初始真实声学
信息以及n

1组降采样真实声学信息一一对应地输入n个子判别器,以获得n个子判别器输出的n个子真实判别结果,真实判别结果包括n个子真实判别结果;将初始预测声学信息以及n

1组降采样预测声学信息一一对应地输入n个子判别器,以获得n个子判别器输出的n个子预测判别结果,预测判别结果包括n个子预测判别结果。
[0009]示例性地,基于真实判别结果计算真实损失包括:
[0010]通过以下公式计算真实损失real

loss:
[0011]real

loss=E
s
[max(0,1

D
k
(s))],k=1,2,3

n;
[0012]基于预测判别结果计算预测损失包括:
[0013]通过以下公式计算预测损失fake

loss:
[0014]fake

loss=E
x
[max(0,1+D
k
(G(x)))],k=1,2,3

n;
[0015]基于预测判别结果计算对抗损失包括:
[0016]通过以下公式计算对抗损失adv

loss:
[0017]adv

loss=E
x
[

D
k
(G(x))],k=1,2,3

n;
[0018]其中,D
k
代表n个子判别器中的第k个子判别器,s代表初始真实声学信息,x代表文本信息,G代表声学模型,G(x)代表初始预测声学信息,D
k
(s)代表第k个子判别器所对应的子真实判别结果,D
k
(G(x))代表第k个子判别器所对应的子预测判别结果。
[0019]示例性地,n

1个降采样操作中的第i个降采样操作用于将对应的声学信息降采样2i倍,i=1,2,3
……
n

1。
[0020]示例性地,基于真实损失和预测损失计算判别器损失包括:将真实损失和预测损失加权求和,以获得判别器损失;和/或基于信息损失和对抗损失计算生成器损失包括:将信息损失和对抗损失加权求和,以获得生成器损失。
[0021]示例性地,基于初始真实声学信息和初始预测声学信息计算信息损失包括:将初始真实声学信息和初始预测声学信息代入均方误差函数或平方绝对误差函数,以计算信息损失。
[0022]示例性地,判别器包括n个子判别器,n为大于1的正整数,将初始真实声学信息和初始预测声学信息分别输入判别器,以获得判别器输出的真实判别结果和预测判别结果包括:对初始真实声学信息分别进行n

1个降采样操作,以分别获得n

1组降采样真实声学信息,其中,n

1个降采样操作中的任意两个降采样操作的降采样尺度不同;对初始预测声学信息分别进行n

1个降采样操作,以分别获得n

1组降采样预测声学信息;将初始真实声学信息以及n

1组降采样真实声学信息一一对应地输入n个子判别器,以获得n个子判别器输出的n个子真实判别结果,真实判别结果包括n个子真实判别结果;将初始预测声学信息以及n

1组降采样预测声学信息一一对应地输入n个子判别器,以获得n个子判别器输出的n个子预测判别结果,预测判别结果包括n个子预测判别结果。
[0023]根据本专利技术另一方面,还提供一种语音合成方法,包括:获取待合成文本;利用上述声学模型训练方法训练获得的声学模型对待合成文本进行语音合成,以获得目标语音。
[0024]根据本专利技术另一方面,还提供一种声学模型训练装置,包括:获取模块,用于获取文本信息和初始真实声学信息,文本信息包括训练文本或与训练文本相关的文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声学模型训练方法,包括:获取文本信息和初始真实声学信息,所述文本信息包括训练文本或与所述训练文本相关的文本特征序列,所述初始真实声学信息包括初始真实语音或与所述初始真实语音相关的初始真实声学特征序列;将所述文本信息输入声学模型,以获得所述声学模型输出的初始预测声学信息,其中,所述初始预测声学信息与所述初始真实声学信息的形式一致;将所述初始真实声学信息和所述初始预测声学信息分别输入判别器,以获得所述判别器输出的真实判别结果和预测判别结果,所述真实判别结果与所述初始真实声学信息相对应,所述预测判别结果与所述初始预测声学信息相对应;以及至少基于所述真实判别结果和所述预测判别结果,对所述声学模型和所述判别器进行对抗训练。2.如权利要求1所述的方法,其中,所述至少基于所述真实判别结果和所述预测判别结果,对所述声学模型和所述判别器进行对抗训练包括:在所述声学模型固定的情况下,执行判别器训练操作,并在所述判别器固定的情况下,执行声学模型训练操作;其中,所述判别器训练操作包括:基于所述真实判别结果计算真实损失;基于所述预测判别结果计算预测损失;基于所述真实损失和所述预测损失计算判别器损失;基于所述判别器损失对所述判别器的参数进行优化;其中,所述声学模型训练操作包括:基于所述初始真实声学信息和所述初始预测声学信息计算信息损失;基于所述预测判别结果计算对抗损失;基于所述信息损失和所述对抗损失计算生成器损失;基于所述生成器损失对所述声学模型的参数进行优化。3.如权利要求2所述的方法,其中,所述判别器包括n个子判别器,n为大于1的正整数,所述将所述初始真实声学信息和所述初始预测声学信息分别输入判别器,以获得所述判别器输出的真实判别结果和预测判别结果包括:对所述初始真实声学信息分别进行n

1个降采样操作,以分别获得n

1组降采样真实声学信息,其中,所述n

1个降采样操作中的任意两个降采样操作的降采样尺度不同;对所述初始预测声学信息分别进行所述n

1个降采样操作,以分别获得n

1组降采样预测声学信息;将所述初始真实声学信息以及所述n

1组降采样真实声学信息一一对应地输入所述...

【专利技术属性】
技术研发人员:崔君君李秀林
申请(专利权)人:标贝北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1