【技术实现步骤摘要】
一种语音合成的方法及装置
本专利技术涉及语音合成领域,更具体涉及一种语音合成的方法及装置。
技术介绍
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(TextToSpeech,文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。采用世界领先的语音合成技术,研发出来的“语音合成助手”软件可以完美的完成语音合成工作。现有的语音合成技术分为以下几种,如图1所示为波形拼接的方法实现语音合成,属于较早期的方式,效果欠佳,如图2为参数合成的方法实现语音合成,当前常用的方式,但效果有待进一步提高,由于训练过程是2阶段,较繁琐,且第二阶段声码器依靠参数进行波形重建,参数中有很多需要人工调整的地方,工作量很大且很难找到最优配置;两阶段神经网络实现语音合成,也是当前常用的方式,但效果有待进一步提高,由于训练过程是2阶段,较繁琐,且第一阶段通常使用注意力机制,模型收敛很慢,梅尔生成长度和停止位置预测不稳定,实际使用时会出现异常情况,稳定性不足;如图3所示为 ...
【技术保护点】
1.一种语音合成的方法,其特征在于,所述方法包括:/n通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;/n通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;/n将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;/n通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;/n通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;/n将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;/n再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;/n将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行 ...
【技术特征摘要】
1.一种语音合成的方法,其特征在于,所述方法包括:
通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵;
通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵;
将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵;
通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵;
通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵;
将再编码矩阵通过一个全连接层进行发音长度预测,获得长度预测矩阵;
再通过一个全连接层对长度预测矩阵进行重采样,获得重采样矩阵;
将重采样矩阵通过多层一维卷积层进行解码,再通过一层双向递归神经网络进行再解码,得到再解码矩阵,将再解码矩阵映射到预设的位宽数值范围内,得到输出波形。
2.根据权利要求1所述的一种语音合成的方法,其特征在于,所述通过预设数量的文本训练字符向量,获取预训练的字符向量矩阵,包括:将长度为L的文本的每个字进行编号,上下文窗口大小均为a,将上下文的共2a个字符的字向量相加,然后再通过一个全连接层对这些字向量进行编码映射,得到预训练的字符向量矩阵V0×L,V0为预测的中心字符的字向量。
3.根据权利要求2所述的一种语音合成的方法,其特征在于,所述通过字嵌入对输入文本进行编码,获取待训练的字符向量矩阵,包括:将长度为L的输入文本的每个字符进行编号,然后按照编号将每个字符通过查表对应转换为固定长度V1的向量,所有字符整体组成一个待训练的字符向量矩阵V1×L。
4.根据权利要求3所述的一种语音合成的方法,其特征在于,所述将预训练的字符向量矩阵与待训练的字符向量矩阵相拼接,获取整体句子矩阵,包括:将预训练的字符向量矩阵V0×L与待训练的字符向量矩阵V1×L相拼接,得到整体句子矩阵(V0+V1)×L。
5.根据权利要求4所述的一种语音合成的方法,其特征在于,所述通过多层一维卷积层,对整体句子矩阵进行编码,获得编码矩阵,包括:将整体句子矩阵(V0+V1)×L中的V0+V1重命名为Cin,L重命名为Lin,通过卷积公式对整体句子矩阵进行编码,获得编码矩阵Cout×Lout,其中,x(k)是第k个输入通道的值且x(k)=Cin×Lin,k是输入通道的索引且0≤k<Cin,y(Couti)是第i个输出通道的值,Cin是输入通道的数量,Cout是输出通道的数量,i是输出通道的索引且0≤i<Cout,bias是输出通道的偏置,bias(Couti)是第i个输出通道的偏置,weight是输出通道的权重,weight(Couti)是第i个输出通道的权重,是互相关运算符。
6.根据权利要求5所述的一种语音合成的方法,其特征在于,所述通过一层双向递归神经网络,对编码矩阵继续编码,获得再编码矩阵,包括:将编码矩阵Cout×Lout重命名为矩阵Xin×Tin且Cout=Xin,Lout=Tin,通过一层双向递归神经网络
it=σ(Wiixt+bii+Whih(t-1)+bhi)
ft=σ(Wifxt+bif+Whfh(t-1)+bhf)
gt=tanh(Wigxt+big+Whgh(t-1)+bhg)
ot=σ(Wioxt+bio+Whoh(t-1)+bho)
ct=ft*c(t-1)+it*gt
ht=ot*tanh(ct)
对矩阵Xin×Tin继续编码,获得再编码矩阵...
【专利技术属性】
技术研发人员:晋博琛,郑岩,
申请(专利权)人:北京大牛儿科技发展有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。