一种语音合成的方法及装置制造方法及图纸

技术编号:24097183 阅读:47 留言:0更新日期:2020-05-09 10:58
本发明专利技术公开了一种语音合成的方法及装置,所述方法包括:获取预训练的字符向量矩阵;获取待训练的字符向量矩阵;将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接;通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形;本发明专利技术的优点在于:模型收敛快,稳定性较强。

A method and device of speech synthesis

【技术实现步骤摘要】
一种语音合成的方法及装置
本专利技术涉及语音合成领域,更具体涉及一种语音合成的方法及装置。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(TextToSpeech,文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。采用世界领先的语音合成技术,研发出来的“语音合成助手”软件可以完美的完成语音合成工作。现有的语音合成技术分为以下几种,如图1所示为波形拼接的方法实现语音合成,属于较早期的方式,效果欠佳,如图2为参数合成的方法实现语音合成,当前常用的方式,但效果有待进一步提高,由于训练过程是2阶段,较繁琐,且第二阶段声码器依靠参数进行波形重建,参数中有很多需要人工调整的地方,工作量很大且很难找到最优配置;两阶段神经网络实现语音合成,也是当前常用的方式,但效果有待进一步提高,由于训练过程是2阶段,较繁琐,且第一阶段通常使用注意力机制,模型收敛很慢,梅尔生成长度和停止位置预测不稳定,实际使用时会出现异常情况,稳定性不足;如图3所示为完全端到端波形生成神本文档来自技高网...

【技术保护点】
1.一种语音合成的方法,其特征在于,所述方法包括:/n通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;/n通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;/n将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;/n通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;/n通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;/n将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;/n再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;/n将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩...

【技术特征摘要】
1.一种语音合成的方法,其特征在于,所述方法包括:
通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;
通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;
将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;
通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;
通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;
将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;
再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;
将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。


2.根据权利要求1所述的一种语音合成的方法,其特征在于,所述通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵,包括:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量。


3.根据权利要求2所述的一种语音合成的方法,其特征在于,所述通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵,包括:将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L。


4.根据权利要求3所述的一种语音合成的方法,其特征在于,所述将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵,包括:将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L。


5.根据权利要求4所述的一种语音合成的方法,其特征在于,所述通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵,包括:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,是互相关运算符。


6.根据权利要求5所述的一种语音合成的方法,其特征在于,所述通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵,包括:将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout=Xin,Lout=Tin,通过一层双向递归神经网络
it=σ(Wiixt+bii+Whih(t-1)+bhi)
ft=σ(Wifxt+bif+Whfh(t-1)+bhf)
gt=tanh(Wigxt+big+Whgh(t-1)+bhg)
ot=σ(Wioxt+bio+Whoh(t-1)+bho)
ct=ft*c(t-1)+it*gt
ht=ot*tanh(ct)
对矩阵Xin×Tin继续编码,获得再编码矩阵...

【专利技术属性】
技术研发人员:晋博琛郑岩
申请(专利权)人:北京大牛儿科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1