基于多说话人的模型训练方法以及装置制造方法及图纸

技术编号:25124745 阅读:22 留言:0更新日期:2020-08-05 02:53
本说明书实施例提供基于多说话人的模型训练方法以及装置,其中所述基于多说话人的模型训练方法包括:获取语音库中多个说话人的语音信息,以及语音信息对应的文本信息;将语音信息转换为声谱特征序列,以及,对文本信息进行标注处理,获得音素序列;对声谱特征序列和音素序列添加说话人标签,获得样本声谱特征序列以及样本音素序列;根据样本声谱特征序列和样本音素序列,构建训练样本集;根据训练样本集中的训练样本对初始声谱预测模型进行训练,获得主说话人的声谱预测模型;其中,初始声谱预测模型的超参数预设为在多个说话人中指定的主说话人的主说话人标识,并在训练过程中嵌入从语音信息提取的共享说话人特征。

【技术实现步骤摘要】
基于多说话人的模型训练方法以及装置
本说明书实施例涉及信息处理
,特别涉及一种基于多说话人的模型训练方法以及装置。本说明书一个或者多个实施例同时涉及一种基于多说话人的语音合成系统。
技术介绍
随着科技的进步,语音已经作为一种有效的营销触达的方式,且随着应用场景以及设备的多样性,对于语音可变性以及可定制化的要求越来越高,目前,训练一个说话人的语音合成系统需要此说话人大量的音频数据,导致训练一个说话人的语音合成系统的成本较高,且耗费时间长,因此需要提供更低成本且更快速的方案。
技术实现思路
有鉴于此,本说明书实施例提供了一种基于多说话人的模型训练方法。本说明书一个或者多个实施例同时涉及一种基于多说话人的模型训练装置,一种基于多说话人的语音合成系统,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。本说明书实施例的第一方面,提供了一种基于多说话人的模型训练方法,包括:获取语音库中多个说话人的语音信息,以及所述语音信息对应的文本信息;将所述语音信息转换为声谱特征序列,以及,对所述文本信息进行标注处理,获得音素序列;对所述声谱特征序列和所述音素序列添加说话人标签,获得样本声谱特征序列以及样本音素序列;根据所述样本声谱特征序列和所述样本音素序列,构建训练样本集;根据所述训练样本集中的训练样本对初始声谱预测模型进行训练,获得主说话人的声谱预测模型;其中,所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识,并在训练过程中嵌入从所述语音信息提取的共享说话人特征。可选的,所述基于多说话人的模型训练方法,还包括:获取待处理文本信息,将所述待处理文本信息进行标注处理,获得待处理音素序列;将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型进行声谱预测,获得所述声谱预测模型输出的所述主说话人的声谱特征序列;根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号。可选的,所述声谱预测模型,具体采用如下方式进行声谱预测:将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型的编码器进行编码,获得所述编码器输出的隐层向量;将所述隐层向量以及所述共享说话人特征输入所述声谱预测模型的位置敏感注意力机制,获得所述位置敏感注意力机制输出的上下文向量;将所述上下文向量以及所述共享说话人特征输入所述声谱预测模型的解码器进行解码,获得所述解码器输出的所述主说话人的梅尔频谱帧序列,将所述梅尔频谱帧序列作为所述主说话人的声谱特征序列。可选的,所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号,包括:将所述梅尔频谱帧序列输入声码器,对所述梅尔频谱帧序列进行语音合成,获得所述声码器输出的所述时域语音信号;其中,所述声码器的全局条件预设为所述主说话人标识。可选的,所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号步骤执行之后,还包括:将所述时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型,对所述时域语音信号进行语音转换,获得所述第一语音转换模型输出的所述目标说话人的第一目标语音信号。可选的,所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号步骤执行之后,还包括:将所述时域语音信号输入第二语音转换模型,对所述时域语音信号进行语音转换,获得所述第二语音转换模型输出的第二目标语音信号。本说明书实施例的第二方面,提供了一种基于多说话人的模型训练装置,包括:获取模块,被配置为获取语音库中多个说话人的语音信息,以及所述语音信息对应的文本信息;处理模块,被配置为将所述语音信息转换为声谱特征序列,以及,对所述文本信息进行标注处理,获得音素序列;添加模块,被配置为对所述声谱特征序列和所述音素序列添加说话人标签,获得样本声谱特征序列以及样本音素序列;构建模块,被配置为根据所述样本声谱特征序列和所述样本音素序列,构建训练样本集;训练模块,被配置为根据所述训练样本集中的训练样本对初始声谱预测模型进行训练,获得主说话人的声谱预测模型;其中,所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识,并在训练过程中嵌入从所述语音信息提取的共享说话人特征。本说明书实施例的第三方面,提供了一种基于多说话人的语音合成系统,包括:声谱预测模块以及语音合成模块;其中,所述声谱预测模块,被配置为获取待处理文本信息,将所述待处理文本信息进行标注处理,获得待处理音素序列;将所述待处理音素序列以及共享说话人特征输入声谱预测模型进行声谱预测,获得所述声谱预测模型输出的主说话人的声谱特征序列;其中,所述共享说话人特征从语音库中多个说话人的语音信息中提取;所述语音合成模块,被配置为根据所述主说话人的声谱特征序列以及所述主说话人的主说话人标识进行语音合成,获得所述主说话人的时域语音信号。可选的,所述声谱预测模型,通过如下方式进行训练:获取所述语音库中所述多个说话人的所述语音信息,以及所述语音信息对应的文本信息;将所述语音信息转换为声谱特征序列,以及,对所述文本信息进行标注处理,获得音素序列;对转换生成的声谱特征序列和所述音素序列添加说话人标签,获得样本声谱特征序列以及样本音素序列;根据所述样本声谱特征序列和所述样本音素序列,构建训练样本集;根据所述训练样本集中的训练样本对初始声谱预测模型进行训练,获得所述声谱预测模型;其中,所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识,并在训练过程中嵌入所述共享说话人特征。可选的,所述声谱预测模型,具体采用如下方式进行声谱预测:将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型的编码器进行编码,获得所述编码器输出的隐层向量;将所述隐层向量以及所述共享说话人特征输入所述声谱预测模型的位置敏感注意力机制,获得所述位置敏感注意力机制输出的上下文向量;将所述上下文向量以及所述共享说话人特征输入所述声谱预测模型的解码器进行解码,获得所述解码器输出的所述主说话人的梅尔频谱帧序列,将所述梅尔频谱帧序列作为所述主说话人的声谱特征序列。可选的,所述语音合成模块,还被配置为:将所述梅尔频谱帧序列输入声码器,对所述梅尔频谱帧序列进行语音合成,获得所述声码器输出的所述时域语音信号;其中,所述声码器的全局条件预设为所述主说话人标识。可选的,所述基于多说话人的语音合成系统,还包括:第一语音转换模块,被配置为将所述时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型,对所述时域语音信号进行语音转换,获得所述第一语音转换模型输出本文档来自技高网...

【技术保护点】
1.一种基于多说话人的模型训练方法,包括:/n获取语音库中多个说话人的语音信息,以及所述语音信息对应的文本信息;/n将所述语音信息转换为声谱特征序列,以及,对所述文本信息进行标注处理,获得音素序列;/n对所述声谱特征序列和所述音素序列添加说话人标签,获得样本声谱特征序列以及样本音素序列;/n根据所述样本声谱特征序列和所述样本音素序列,构建训练样本集;/n根据所述训练样本集中的训练样本对初始声谱预测模型进行训练,获得主说话人的声谱预测模型;其中,所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识,并在训练过程中嵌入从所述语音信息提取的共享说话人特征。/n

【技术特征摘要】
1.一种基于多说话人的模型训练方法,包括:
获取语音库中多个说话人的语音信息,以及所述语音信息对应的文本信息;
将所述语音信息转换为声谱特征序列,以及,对所述文本信息进行标注处理,获得音素序列;
对所述声谱特征序列和所述音素序列添加说话人标签,获得样本声谱特征序列以及样本音素序列;
根据所述样本声谱特征序列和所述样本音素序列,构建训练样本集;
根据所述训练样本集中的训练样本对初始声谱预测模型进行训练,获得主说话人的声谱预测模型;其中,所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识,并在训练过程中嵌入从所述语音信息提取的共享说话人特征。


2.根据权利要求1所述的基于多说话人的模型训练方法,还包括:
获取待处理文本信息,将所述待处理文本信息进行标注处理,获得待处理音素序列;
将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型进行声谱预测,获得所述声谱预测模型输出的所述主说话人的声谱特征序列;
根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号。


3.根据权利要求2所述的基于多说话人的模型训练方法,所述声谱预测模型,具体采用如下方式进行声谱预测:
将所述待处理音素序列以及所述共享说话人特征输入所述声谱预测模型的编码器进行编码,获得所述编码器输出的隐层向量;
将所述隐层向量以及所述共享说话人特征输入所述声谱预测模型的位置敏感注意力机制,获得所述位置敏感注意力机制输出的上下文向量;
将所述上下文向量以及所述共享说话人特征输入所述声谱预测模型的解码器进行解码,获得所述解码器输出的所述主说话人的梅尔频谱帧序列,将所述梅尔频谱帧序列作为所述主说话人的声谱特征序列。


4.根据权利要求3所述的基于多说话人的模型训练方法,所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号,包括:
将所述梅尔频谱帧序列输入声码器,对所述梅尔频谱帧序列进行语音合成,获得所述声码器输出的所述时域语音信号;其中,所述声码器的全局条件预设为所述主说话人标识。


5.根据权利要求2所述的基于多说话人的模型训练方法,所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号步骤执行之后,还包括:
将所述时域语音信号以及目标说话人的目标说话人标识输入第一语音转换模型,对所述时域语音信号进行语音转换,获得所述第一语音转换模型输出的所述目标说话人的第一目标语音信号。


6.根据权利要求2所述的基于多说话人的模型训练方法,所述根据所述主说话人的声谱特征序列以及所述主说话人标识进行语音合成,获得所述主说话人的时域语音信号步骤执行之后,还包括:
将所述时域语音信号输入第二语音转换模型,对所述时域语音信号进行语音转换,获得所述第二语音转换模型输出的第二目标语音信号。


7.一种基于多说话人的模型训练装置,包括:
获取模块,被配置为获取语音库中多个说话人的语音信息,以及所述语音信息对应的文本信息;
处理模块,被配置为将所述语音信息转换为声谱特征序列,以及,对所述文本信息进行标注处理,获得音素序列;
添加模块,被配置为对所述声谱特征序列和所述音素序列添加说话人标签,获得样本声谱特征序列以及样本音素序列;
构建模块,被配置为根据所述样本声谱特征序列和所述样本音素序列,构建训练样本集;
训练模块,被配置为根据所述训练样本集中的训练样本对初始声谱预测模型进行训练,获得主说话人的声谱预测模型;其中,所述初始声谱预测模型的超参数预设为在所述多个说话人中指定的所述主说话人的主说话人标识,并在训练过程中嵌入从所述语音信息提取的共享说话人特征。


8.一种基于多说话人的语音合成系统,...

【专利技术属性】
技术研发人员:曾晓东
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1