【技术实现步骤摘要】
声学模型训练与语音合成方法、装置和系统及存储介质
[0001]本专利技术涉及语音处理
,具体地,涉及一种声学模型训练方法、装置和系统及存储介质与一种语音合成方法、装置和系统及存储介质。
技术介绍
[0002]语音合成技术是一种将文字信息转化为声音信息的技术。语音合成技术可以为广大用户及目标应用提供语音合成服务。语音合成系统在如今有着较为广泛的应用。
[0003]语音合成需要用到声学模型来实现文本到语音的转换。在采用声学模型进行语音合成之前,通常需要对声学模型进行训练。
[0004]现有的声学模型在训练时,都是通过直接计算声学模型生成的预测声学信息与真实声学信息之间的差距来调整模型参数。这种训练方式相对比较简单,训练获得的声学模型性能不够好。
技术实现思路
[0005]为了至少部分地解决现有技术中存在的问题,提供一种声学模型训练方法、装置和系统及存储介质与一种语音合成方法、装置和系统及存储介质。
[0006]根据本专利技术一个方面,提供一种声学模型训练方法,包括:获取文本信息和初始真实声学信息,文本信息包括训练文本或与训练文本相关的文本特征序列,初始真实声学信息包括初始真实语音或与初始真实语音相关的初始真实声学特征序列;将文本信息输入声学模型,以获得声学模型输出的初始预测声学信息,其中,初始预测声学信息与初始真实声学信息的形式一致;将初始真实声学信息和初始预测声学信息分别输入判别器,以获得判别器输出的真实判别结果和预测判别结果,真实判别结果与初始真实声学信息相对应,预测判别 ...
【技术保护点】
【技术特征摘要】
1.一种声学模型训练方法,包括:获取文本信息和初始真实声学信息,所述文本信息包括训练文本或与所述训练文本相关的文本特征序列,所述初始真实声学信息包括初始真实语音或与所述初始真实语音相关的初始真实声学特征序列;将所述文本信息输入声学模型,以获得所述声学模型输出的初始预测声学信息,其中,所述初始预测声学信息与所述初始真实声学信息的形式一致;将所述初始真实声学信息和所述初始预测声学信息分别输入判别器,以获得所述判别器输出的真实判别结果和预测判别结果,所述真实判别结果与所述初始真实声学信息相对应,所述预测判别结果与所述初始预测声学信息相对应;以及至少基于所述真实判别结果和所述预测判别结果,对所述声学模型和所述判别器进行对抗训练。2.如权利要求1所述的方法,其中,所述至少基于所述真实判别结果和所述预测判别结果,对所述声学模型和所述判别器进行对抗训练包括:在所述声学模型固定的情况下,执行判别器训练操作,并在所述判别器固定的情况下,执行声学模型训练操作;其中,所述判别器训练操作包括:基于所述真实判别结果计算真实损失;基于所述预测判别结果计算预测损失;基于所述真实损失和所述预测损失计算判别器损失;基于所述判别器损失对所述判别器的参数进行优化;其中,所述声学模型训练操作包括:基于所述初始真实声学信息和所述初始预测声学信息计算信息损失;基于所述预测判别结果计算对抗损失;基于所述信息损失和所述对抗损失计算生成器损失;基于所述生成器损失对所述声学模型的参数进行优化。3.如权利要求2所述的方法,其中,所述判别器包括n个子判别器,n为大于1的正整数,所述将所述初始真实声学信息和所述初始预测声学信息分别输入判别器,以获得所述判别器输出的真实判别结果和预测判别结果包括:对所述初始真实声学信息分别进行n
‑
1个降采样操作,以分别获得n
‑
1组降采样真实声学信息,其中,所述n
‑
1个降采样操作中的任意两个降采样操作的降采样尺度不同;对所述初始预测声学信息分别进行所述n
‑
1个降采样操作,以分别获得n
‑
1组降采样预测声学信息;将所述初始真实声学信息以及所述n
‑
1组降采样真实声学信息一一对应地输入所述...
【专利技术属性】
技术研发人员:崔君君,李秀林,
申请(专利权)人:标贝北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。