语音合成模型的改进方法和语音合成方法及装置制造方法及图纸

技术编号：26175185 阅读：21 留言：0更新日期：2020-10-31 14:07

本发明专利技术公开语音合成模型的改进方法和语音合成方法及装置，其中，一种语音合成模型的改进方法，包括：语音合成模型的改进方法，其中，所述语音合成模型包括受x‑vector控制的LSTM模块，所述方法包括：将经由x‑vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；利用所述说话人嵌入在受x‑vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。本申请的方法和装置提供的方案通过在引入x‑vector控制的模型参数的无监督自适应方法，合成未见过的说话人音频上，相较有监督自适应方法获得更好的自然度，相交基于说话人嵌入的无监督自适应方法获得更好的相似度。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成模型的改进方法和语音合成方法及装置
本专利技术属于语音合成领域，尤其涉及语音合成模型的改进方法和语音合成方法及装置。
技术介绍
近年来，随着神经网络的成熟和显卡计算力的提升，端到端语音合成(Text-To-Speech)技术已经可以达到非常高得自然度，甚至可以欺骗过人耳。但是端到端系统受限于训练数据的数量，过少的训练数据无法完成一个成熟的语音合成系统。其中通过多说话人的数据一起建模是解决单说话人数据量不够的一个常见且简单的做法。多说话人的语音合成模型一般分为两种：使用说话人无关模型和说话人相关模型。说话人无关模型不引入任何与说话人相关的参数，相当于假设所有数据来自同一个说话人，而去训练一个所有人数据上的平均模型。说话人相关模型会使用各种说话人参数对不同人的语音数据进行区分建模，其实包括独热码表,说话人嵌入(Speakerembedding)等参数进行建模。但是，在实际应用场景中，用户录制的数据通常很少，并且录制环境是不可控的自然环境而不是录音棚。因此，此类数据可能会出现一些问题，包括语音质量差，背景噪音，房间混响，发音错误和没有对应文本。所以如何从已有的录音棚环境录制的语音数据上训练的TTS模型迁移到自然环境录制的新数据上是需要考虑的。从预先训练的TTS模型进行自适应训练是一种流行且常用的解决方法。依据是否使用人工校对的对应文本，自适应方法大致可分为两种：有监督的自适应和无监督自适应。其中，有监督的自适应方法使用音频和对应文本来微调预先训练的TTS模型参数(或部分模型参数)。许多研究人员探索了...

【技术保护点】
1.一种语音合成模型的改进方法，其中，所述语音合成模型包括受x-vector控制的LSTM模块，所述方法包括：/n将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；/n利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。/n

【技术特征摘要】
1.一种语音合成模型的改进方法，其中，所述语音合成模型包括受x-vector控制的LSTM模块，所述方法包括：
将经由x-vector提取器提取的说话人嵌入作为所述语音合成模型的额外输入；
利用所述说话人嵌入在受x-vector控制的LSTM模块中，使用控制层来预测对应的控制变量的缩放和偏移。

2.根据权利要求1所述的方法，其中，所述受x-vector控制的LSTM模块的参数计算表示如下：
it＝σ(a[i]*W[i][ht-1，xt]+c[i]+b[i])
jt＝tanh(a[j]*W[j][ht-1，xt]+c[j]+b[j])
ft＝σ(a[f]*W[f][ht-1，xt]+c[f]+b[f])
ot＝σ(a[o]*W[o][ht-1，xt]+c[o]+b[o])
st＝ft*st-1+it*jt
ht＝ot*tanh(st)；
其中，it，jt，ft，ot是输入门、候选状态、遗忘门、输出门在时间t时的向量，W[m]，c[m]，{i，j，f，o}分别是所述受x-vector控制的LSTM模型的权重矩阵、偏差矩阵和参数下标。

3.根据权利要求1或2所述的方法，还包括：
对引入x-vector控制的语音合成模型进行无监督自适应。

4.根据权利要求3所述的方法，其中，所述语音合成模型还包括编码器、解码器和注意力机制；
其中，所述编码器用于将经过文本归一化的音素序列转化为音素嵌入，并在所述音素嵌入上提取文本上下文信息，作为所述编码器的输出；
所述注意力机制用于将所述编码器的输出总结为固定长度的上下文相关向量，并在每一帧将所述上下文相关向量输入所述解码器；
所述解码器为自回归的循环神经网络，用于在所述LSTM模块的基础上，输入前一帧的声学特征和所述上下文相关向量，预测后续若干帧声学特征。

...

【专利技术属性】
技术研发人员：俞凯，徐志航，陈博，
申请(专利权)人：苏州思必驰信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人