语音合成模型的改进方法和语音合成方法及装置制造方法及图纸

技术编号:26175185 阅读:21 留言:0更新日期:2020-10-31 14:07
本发明专利技术公开语音合成模型的改进方法和语音合成方法及装置,其中,一种语音合成模型的改进方法,包括:语音合成模型的改进方法,其中,所述语音合成模型包括受x‑vector控制的LSTM模块,所述方法包括:将经由x‑vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;利用所述说话人嵌入在受x‑vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。本申请的方法和装置提供的方案通过在引入x‑vector控制的模型参数的无监督自适应方法,合成未见过的说话人音频上,相较有监督自适应方法获得更好的自然度,相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

【技术实现步骤摘要】
语音合成模型的改进方法和语音合成方法及装置
本专利技术属于语音合成领域,尤其涉及语音合成模型的改进方法和语音合成方法及装置。
技术介绍
近年来,随着神经网络的成熟和显卡计算力的提升,端到端语音合成(Text-To-Speech)技术已经可以达到非常高得自然度,甚至可以欺骗过人耳。但是端到端系统受限于训练数据的数量,过少的训练数据无法完成一个成熟的语音合成系统。其中通过多说话人的数据一起建模是解决单说话人数据量不够的一个常见且简单的做法。多说话人的语音合成模型一般分为两种:使用说话人无关模型和说话人相关模型。说话人无关模型不引入任何与说话人相关的参数,相当于假设所有数据来自同一个说话人,而去训练一个所有人数据上的平均模型。说话人相关模型会使用各种说话人参数对不同人的语音数据进行区分建模,其实包括独热码表,说话人嵌入(Speakerembedding)等参数进行建模。但是,在实际应用场景中,用户录制的数据通常很少,并且录制环境是不可控的自然环境而不是录音棚。因此,此类数据可能会出现一些问题,包括语音质量差,背景噪音,房间混响,发音错误和没有对应文本。所以如何从已有的录音棚环境录制的语音数据上训练的TTS模型迁移到自然环境录制的新数据上是需要考虑的。从预先训练的TTS模型进行自适应训练是一种流行且常用的解决方法。依据是否使用人工校对的对应文本,自适应方法大致可分为两种:有监督的自适应和无监督自适应。其中,有监督的自适应方法使用音频和对应文本来微调预先训练的TTS模型参数(或部分模型参数)。许多研究人员探索了不同说话人适应方法,包括把整个语音合成模型分为和说话人相关的部分和非说话人相关的部分,让新的数据去更新说话人相关的参数而保持其他非说话人相关的参数不变。其他研究小组把说话人网络和TTS模型或声码器联合训练。由于近使用少量数据训练所有模型参数通常会导致过度拟合,自动语音识别(ASR)任务中一些特别的自适应技术也被引入TTS任务当中。例如,说话人自适应训练(SAT),学习隐藏单元向量(LHUC)。无监督自适应方法仅需要语音数据,而无需对应文本。基于说话者嵌入的无监督方法一般通过说话人嵌入网络提供新的说话人的嵌入,然后保持模型参数不变而更新对应的说话人嵌入的输入来到达无监督自适应的效果。还有一种特别的无监督自适应,可以通过添加一个辅助语音编码器来代替文本编码器来对模型进行梯度反传更新,而无需使用对应音频的文本。专利技术人在实现本申请的过程中发现,现有方案至少存在以下缺陷:1)有监督自适应:在目标数据量比较少的情况下,更新模型参数经常会过拟合,导致合成的声音自然度下降。用LHUC等做法会减小更新的模型参数量,在一定程度上可以缓解过拟合的问题,但是如果目标数据和原先的数据分布差别很大,就无法很好拟合新的数据。2)无监督自适应:一般来说这种方法在集内数据,或者相似分布数据上有很好的自然度。但是由于此方法无法直接更新模型参数,对于新数据拟合不充分,导致合成的音频经常会和原始说话人不够相似。
技术实现思路
本专利技术实施例提供一种语音合成模型的改进方法及装置,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种语音合成模型的改进方法,其中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包括:将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;以及利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。第二方面,本专利技术实施例提供一种语音合成方法,包括:获取音频数据,从所述音频数据中提取x-vector特征;将所述x-vector特征作为额外输入输入至根据权利要求1-3中任一项所述的方法改进后的语音合成模型中;以及获取所述改进后的语音合成模型输出的目标说话人音色音频第三方面,本专利技术实施例提供一种语音合成模型的改进装置,其中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包括:嵌入模块,配置为将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;以及控制模块,配置为利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。第四方面,本专利技术实施例提供一种语音合成方法,包括:提取模块,配置为获取音频数据,从所述音频数据中提取x-vector特征;输入模块,配置为将所述x-vector特征作为额外输入输入至上述的方法改进后的语音合成模型中;以及输出模块,配置为获取所述改进后的语音合成模型输出的目标说话人音色音频。第五方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的语音合成模型的改进方法或语音合成方法的步骤。第六方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的语音合成模型的改进方法或语音合成方法的步骤。本申请的方法和装置提供的方案通过在引入x-vector控制的模型参数的无监督自适应方法,合成未见过的说话人音频上,相较有监督自适应方法获得更好的自然度,相交基于说话人嵌入的无监督自适应方法获得更好的相似度。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的一种语音合成模型的改进方法的流程图;图2为本专利技术一实施例提供的一种语音合成方法的流程图;图3为三种模型结构,其中,(a)示出了Tacotron模型结构,(b)示出了典型的LSTM模型结构,(c)示出了受x-vector控制的LSTM的模型结构;图4为在对数频域中一秒钟内的频谱样本;图5为按数据类型上色的抽样男性发言人嵌入图;图6为本专利技术一实施例提供的一种语音合成模型的改进装置的框图;图7为本专利技术一实施例提供的一种语音合成装置的框图;图8是本专利技术一实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,其示出了本申请的语音合成模型的改进方法的一实施例的流程图,本实施例的语音合成模本文档来自技高网
...

【技术保护点】
1.一种语音合成模型的改进方法,其中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包括:/n将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;/n利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。/n

【技术特征摘要】
1.一种语音合成模型的改进方法,其中,所述语音合成模型包括受x-vector控制的LSTM模块,所述方法包括:
将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入;
利用所述说话人嵌入在受x-vector控制的LSTM模块中,使用控制层来预测对应的控制变量的缩放和偏移。


2.根据权利要求1所述的方法,其中,所述受x-vector控制的LSTM模块的参数计算表示如下:
it=σ(a[i]*W[i][ht-1,xt]+c[i]+b[i])
jt=tanh(a[j]*W[j][ht-1,xt]+c[j]+b[j])
ft=σ(a[f]*W[f][ht-1,xt]+c[f]+b[f])
ot=σ(a[o]*W[o][ht-1,xt]+c[o]+b[o])
st=ft*st-1+it*jt
ht=ot*tanh(st);
其中,it,jt,ft,ot是输入门、候选状态、遗忘门、输出门在时间t时的向量,W[m],c[m],{i,j,f,o}分别是所述受x-vector控制的LSTM模型的权重矩阵、偏差矩阵和参数下标。


3.根据权利要求1或2所述的方法,还包括:
对引入x-vector控制的语音合成模型进行无监督自适应。


4.根据权利要求3所述的方法,其中,所述语音合成模型还包括编码器、解码器和注意力机制;
其中,所述编码器用于将经过文本归一化的音素序列转化为音素嵌入,并在所述音素嵌入上提取文本上下文信息,作为所述编码器的输出;
所述注意力机制用于将所述编码器的输出总结为固定长度的上下文相关向量,并在每一帧将所述上下文相关向量输入所述解码器;
所述解码器为自回归的循环神经网络,用于在所述LSTM模块的基础上,输入前一帧的声学特征和所述上下文相关向量,预测后续若干帧声学特征。


...

【专利技术属性】
技术研发人员:俞凯徐志航陈博
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1