一种语音合成的方法及装置制造方法及图纸

技术编号：24097183 阅读：47 留言：0更新日期：2020-05-09 10:58

本发明专利技术公开了一种语音合成的方法及装置，所述方法包括：获取预训练的字符向量矩阵；获取待训练的字符向量矩阵；将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接；通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵；将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵；再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵；将重采样矩阵通过多层一维卷积层进行解码，再通过一层双向递归神经网络进行再解码，得到再解码矩阵，将再解码矩阵映射到预设的位宽数值范围内，得到输出波形；本发明专利技术的优点在于：模型收敛快，稳定性较强。

A method and device of speech synthesis

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成的方法及装置
本专利技术涉及语音合成领域，更具体涉及一种语音合成的方法及装置。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(TextToSpeech，文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。采用世界领先的语音合成技术，研发出来的“语音合成助手”软件可以完美的完成语音合成工作。现有的语音合成技术分为以下几种，如图1所示为波形拼接的方法实现语音合成，属于较早期的方式，效果欠佳，如图2为参数合成的方法实现语音合成，当前常用的方式，但效果有待进一步提高，由于训练过程是2阶段，较繁琐，且第二阶段声码器依靠参数进行波形重建，参数中有很多需要人工调整的地方，工作量很大且很难找到最优配置；两阶段神经网络实现语音合成，也是当前常用的方式，但效果有待进一步提高，由于训练过程是2阶段，较繁琐，且第一阶段通常使用注意力机制，模型收敛很慢，梅尔生成长度和停止位置预测不稳定，实际使用时会出现异常情况，稳定性不足；如图3所示为...

【技术保护点】
1.一种语音合成的方法，其特征在于，所述方法包括：/n通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵；/n通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵；/n将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵；/n通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；/n通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵；/n将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵；/n再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵；/n将重采样矩阵通过多层一维卷积层进行解码，再通过一层双向递归神经网络进行再解码，得到再解码矩...

【技术特征摘要】
1.一种语音合成的方法，其特征在于，所述方法包括：
通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵；
通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵；
将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵；
通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵；
通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵；
将再编码矩阵通过一个全连接层进行发音长度预测，获得长度预测矩阵；
再通过一个全连接层对长度预测矩阵进行重采样，获得重采样矩阵；
将重采样矩阵通过多层一维卷积层进行解码，再通过一层双向递归神经网络进行再解码，得到再解码矩阵，将再解码矩阵映射到预设的位宽数值范围内，得到输出波形。

2.根据权利要求1所述的一种语音合成的方法，其特征在于，所述通过预设数量的文本训练字符向量，获取预训练的字符向量矩阵，包括：将长度为L的文本的每个字进行编号，上下文窗口大小均为a，将上下文的共2a个字符的字向量相加，然后再通过一个全连接层对这些字向量进行编码映射，得到预训练的字符向量矩阵V0×L，V0为预测的中心字符的字向量。

3.根据权利要求2所述的一种语音合成的方法，其特征在于，所述通过字嵌入对输入文本进行编码，获取待训练的字符向量矩阵，包括：将长度为L的输入文本的每个字符进行编号，然后按照编号将每个字符通过查表对应转换为固定长度V1的向量，所有字符整体组成一个待训练的字符向量矩阵V1×L。

4.根据权利要求3所述的一种语音合成的方法，其特征在于，所述将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接，获取整体句子矩阵，包括：将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接，得到整体句子矩阵(V0+V1)×L。

5.根据权利要求4所述的一种语音合成的方法，其特征在于，所述通过多层一维卷积层，对整体句子矩阵进行编码，获得编码矩阵，包括：将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin，L重命名为Lin，通过卷积公式对整体句子矩阵进行编码，获得编码矩阵Cout×Lout，其中，x(k)是第k个输入通道的值且x(k)＝Cin×Lin，k是输入通道的索引且0≤k＜Cin，y(Couti)是第i个输出通道的值，Cin是输入通道的数量，Cout是输出通道的数量，i是输出通道的索引且0≤i＜Cout，bias是输出通道的偏置，bias(Couti)是第i个输出通道的偏置，weight是输出通道的权重，weight(Couti)是第i个输出通道的权重，是互相关运算符。

6.根据权利要求5所述的一种语音合成的方法，其特征在于，所述通过一层双向递归神经网络，对编码矩阵继续编码，获得再编码矩阵，包括：将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout＝Xin，Lout＝Tin，通过一层双向递归神经网络
it＝σ(Wiixt+bii+Whih(t-1)+bhi)
ft＝σ(Wifxt+bif+Whfh(t-1)+bhf)
gt＝tanh(Wigxt+big+Whgh(t-1)+bhg)
ot＝σ(Wioxt+bio+Whoh(t-1)+bho)
ct＝ft*c(t-1)+it*gt
ht＝ot*tanh(ct)
对矩阵Xin×Tin继续编码，获得再编码矩阵...

【专利技术属性】
技术研发人员：晋博琛，郑岩，
申请(专利权)人：北京大牛儿科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人