System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 可扩展发音人的声学模型实现方法、装置制造方法及图纸_技高网

可扩展发音人的声学模型实现方法、装置制造方法及图纸

技术编号:40656578 阅读:4 留言:0更新日期:2024-03-13 21:33
本申请公开了一种可扩展发音人的声学模型实现方法、装置。包括:响应于多个目标新增发音人的语音合成请求,确定语音合成请求中各个目标新增发音人的目标发音人标识;预设的发音人索引表中确定与目标发音人标识对应的目标新增发音人的目标嵌入向量;基于多个目标新增发音人的目标嵌入向量确定目标声学模型内的目标适配器参数,并将目标适配器参数与目标声学模型进行重新组合,通过组合后的目标声学模型对多个目标发音人的语音合成请求进行响应。本申请解决了相关声学模型多个发音人批输入语音文本进行语音合成时,通过调用各个发音人的自适应模型参数依次对每个发音人的语音文本进行推理,导致推理处理效率较低的技术问题。

【技术实现步骤摘要】

本申请涉及语音合成,具体而言,涉及一种可扩展发音人的声学模型实现方法、装置


技术介绍

1、语音合成技术是赋予计算机(或各种终端设备)具有像人一样的说话能力。tts(text to speech,文语转换)技术隶属于语音合成,它是将计算机自己产生的或者外部输入的文字信息转换为可以听懂的、流程的口语输出的技术。而语音合成系统一般由文本分析模块、声学模型、声码器三大部分构成。

2、在语音合成系统的基础上,多发音人语音合成系统的模型可以通过混合多发音人数据训练一个声学模型,再利用少量目标发音人的语料对预训练的声学模型进行部分模型参数的微调,即“预训练+微调”来实现。近年来,基于adapter的自适应技术在nlp(naturallanguage processing,自然语言处理)大模型微调上成果显著,已有文献指出可以在原有语音合成声学系统的基础模型上仅添加少量adapter层的方式来学习新发音人的特征。但上述无论哪种方式,都会形成一部分共享的层和参数或者一部分每个发音人独有的层和参数。因此,目前多发音人语音合成模型的推理引擎在输入的发音人个数可以大于1时,在推理时不同发音人需要选择各自独有的那部分层和参数进行推理,但由于每个发音人的参数在训练完成后是独立存在的状态。

3、针对上述问题,相关技术人员提供的一种较为简单的方法,即将batch size(批处理)大于1的输入变为多个batch size为1的输入,分别解码后再将结果拼成batch返回,然而这种方法会严重降低计算机gpu的推理效率。

4、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请实施例提供了一种可扩展发音人的声学模型实现方法、装置,以至少解决相关声学模型多个发音人批输入语音文本进行语音合成时,通过调用各个发音人的自适应模型参数依次对每个发音人的语音文本进行推理,导致推理处理效率较低的技术问题。

2、根据本申请实施例的一个方面,提供了一种可扩展发音人的声学模型实现方法,包括:响应于多个目标新增发音人的语音合成请求,确定语音合成请求中各个目标新增发音人的目标发音人标识;从预设的发音人索引表中确定与目标发音人标识对应的目标新增发音人的目标嵌入向量,其中,目标嵌入向量包括:发音人嵌入向量和自适应嵌入向量,发音人索引表内依次记录第一发音人的第一发音人标识及对应的第一发音人嵌入向量、多个新增发音人的新增发音人标识及对应的第二嵌入向量,第二嵌入向量包括:新增发音人对应的新增发音人嵌入向量和利用新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量适配器参数,目标声学模型是将预设的适配器与基于第一发音人的第一语音数据训练所得的基准声学模型结合所得;基于多个所述目标新增发音人的目标嵌入向量确定所述目标声学模型内的目标适配器参数,并将所述目标适配器参数与所述目标声学模型进行重新组合,通过组合后的所述目标声学模型对多个所述目标发音人的语音合成请求进行响应。

3、可选地,基准声学模型的训练过程包括:构建深度学习模型,其中,深度学习模型包括:由单层前馈变压器fft模块组成的编码器、发音人嵌入模块、由n层fft模块组成的解码器,n为大于等于1的正整数;获取多个第一发音人的第一语音数据,其中,第一语音数据中包括:第一发音人的第一语音文本对应的第一音素序列编码以及第一语音音频对应的第一声学特征,且第一语音文本与第一语音音频相对应;依据多个第一发音人的第一语音数据对深度学习模型进行迭代训练,得到基准声学模型。

4、可选地,获取多个第一发音人的第一语音数据,包括:获取每个第一发音人的初始语音文本,以及与初始语音文本对应的初始语音音频,其中,初始语音文本中包括以下至少之一:文本信息、标点符号、韵律标注;将初始语音文本内的文本信息转换为初始音素序列,并将标点符号和韵律标注插入至初始音素序列内,得到第一音素序列;采用独热编码对第一音素序列进行编码,得到第一音素序列编码;将初始语音音频进行预处理操作,其中,预处理操作包括以下至少之一:采样、音量调整、剪裁;对预处理后的初始语音音频进行特征提取,得到第一声学特征,其中,第一声学特征包括以下至少之一:梅尔频谱特征、帧级别变量特征、音素级别时长特征。

5、可选地,依据多个第一发音人的第一语音数据对深度学习模型进行迭代训练,得到基准声学模型,包括:对于每个第一发音人的第一语音数据,将第一发音人的第一音素序列编码输入至深度学习模型中,依次经过深度学习模型内的编码器和解码器输出对应的第一流式声学特征和第一非流式声学特征;基于每个所述第一发音人的第一语音数据内的第一声学特征与所述第一流式声学特征和所述第一非流式声学特征确定目标损失函数,其中,所述目标损失函数包括:非流式均方误差损失函数、流式均方误差损失函数、对抗损失函数;利用梯度下降算法计算目标损失函数的最小值,并基于目标损失函数的最小值对深度学习模型的模型参数进行调整,得到基准声学模型。

6、可选地,利用新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:获取新增发音人的第二语音数据,其中,第二语音数据包括:新增发音人的第二语音文本对应的第二音素序列编码以及第二语音音频对应的第二声学特征,且第二语音文本与第二语音音频相对应;获取基准声学模型,并利用适配器对基准声学模型内的解码器进行改进,得到目标声学模型,其中,适配器由降维的第一前馈神经网络、激活层、升维的第二前馈神经网络组成;利用新增发音人的第二语音数据对目标声学模型进行自适应模型训练,得到新增发音人的适配器参数,并对适配器参数进行拼接得到新增发音人对应的自适应嵌入向量,其中,适配器参数包括以下至少之一:n层适配器的第一前馈神经网络的第一权重矩阵和第一偏置向量、第二前馈神经网络的第二权重矩阵和第二偏置向量。

7、可选地,利用适配器对基准声学模型内的解码器进行改进,包括:对适配器进行初始化,并在基准声学模型内解码器的n层fft模块后分别增加一个初始化后的适配器,得到改进后的解码器,其中,fft模块由多头注意力机制模块、块状模块、条件层归一化模块、因果卷积模块组成。

8、可选地,对适配器进行初始化,包括:将第一前馈神经网络的第一权重矩阵和第二前馈神经网络的第二权重矩阵初始化为1,以及将第一前馈神经网络的第一偏置向量和第二前馈神经网络的第二偏置向量初始化为0。

9、可选地,对适配器参数进行拼接得到新增发音人对应的自适应嵌入向量,包括:将新增发音人对应的适配器参数内第一层适配器至第n层适配器,依次将每个适配器内的第一前馈神经网络的第一权重矩阵和第一偏置向量,第二前馈神经网络的第二权重矩阵和第二偏置向量进行横向拼接,得到新增发音人对应的自适应嵌入向量。

10、可选地,基于多个目标新增发音人的目标嵌入向量确定目标声学模型内的目标适配器参数,包括:对每个目标新增发音人的目标自适应嵌入向量进行切片和转换,得到对应的n层目标适配器对应的目标适配器参数;对每层目标适配本文档来自技高网...

【技术保护点】

1.一种可扩展发音人的声学模型实现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基准声学模型的训练过程包括:

3.根据权利要求2所述的方法,其特征在于,获取多个所述第一发音人的第一语音数据,包括:

4.根据权利要求2所述的方法,其特征在于,依据多个所述第一发音人的第一语音数据对所述深度学习模型进行迭代训练,得到所述基准声学模型,包括:

5.根据权利要求2所述的方法,其特征在于,利用所述新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:

6.根据权利要求5所述的方法,其特征在于,利用所述适配器对所述基准声学模型内的解码器进行改进,包括:

7.根据权利要求5所述的方法,其特征在于,对所述适配器进行初始化,包括:

8.根据权利要求5所述的方法,其特征在于,对所述适配器参数进行拼接得到所述新增发音人对应的自适应嵌入向量,包括:

9.根据权利要求5所述的方法,其特征在于,基于多个所述目标新增发音人的目标嵌入向量确定所述目标声学模型内的目标适配器参数,包括:

10.一种可扩展发音人的声学模型实现装置,其特征在于,包括:

11.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有计算机程序,其中,所述非易失性存储介质所在设备通过运行所述计算机程序执行权利要求1至9中任意一项所述可扩展发音人的声学模型实现方法。

12.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的可扩展发音人的声学模型实现方法。

...

【技术特征摘要】

1.一种可扩展发音人的声学模型实现方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基准声学模型的训练过程包括:

3.根据权利要求2所述的方法,其特征在于,获取多个所述第一发音人的第一语音数据,包括:

4.根据权利要求2所述的方法,其特征在于,依据多个所述第一发音人的第一语音数据对所述深度学习模型进行迭代训练,得到所述基准声学模型,包括:

5.根据权利要求2所述的方法,其特征在于,利用所述新增发音人的第二语音数据对目标声学模型进行自适应训练所得的自适应嵌入向量,包括:

6.根据权利要求5所述的方法,其特征在于,利用所述适配器对所述基准声学模型内的解码器进行改进,包括:

7.根据权利要求5所述的方法,其特征在于,对所述适配器进行初始化,包括:

【专利技术属性】
技术研发人员:王玉倩廉洁李杰
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1