一种TTS的方法及系统技术方案

技术编号:21550122 阅读:35 留言:0更新日期:2019-07-06 22:48
本发明专利技术公开了一种TTS的方法,解决了合成音频拟人声性较差的问题,其技术方案要点是采用tacotron模型将文本信息预处理后进行编码,产生中间状态,利用前馈注意力机制将编码产生的中间状态结合到一起,前馈注意力机制可以捕捉长序列相依过程,使得输出音频更自然,且前馈注意力机制对长句子拟合比较好,没有尾部弱化现象,比其他的注意力机制要稳定。经解码器产生的梅尔频谱输入到声码器wavenet,经过wavenet网络或者并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。

A Method and System of TTS

【技术实现步骤摘要】
一种TTS的方法及系统
本公开涉及人工智能领域,尤其涉及一种TTS的方法及系统。
技术介绍
语音合成(TexttoSpeech),简称TTS技术,涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。TTS就是一个将文本转化为语音输出的过程,这个过程的工作主要是将输入的文本按字或词分解为特征向量,并且对文本中的数字、货币单位、单词变形以及标点等要特殊处理的符号进行分析,以及将特征向量生成数字转化为音频特征,最终用声码器将音频特征还原为音频文件的过程。端到端TTS技术中一般都会用编码器-解码器结构,近年来大多采用编码器-注意力机制-解码器结构使得合成更有韵律感,因此找到一种适合的注意力机制可以大大提高音频的自然度,但是让音频更清晰,就要结合好的声码器来还原音频,使得合成音频更像真人。
技术实现思路
本公开的目的是改进TTS过程中的注意力机制,并结合声码器新的训练方法,提出的一种新的TTS的方法。为解决上述技术问题,本公开提供了以下技术方案:一种TTS的方法,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所述tacotron模本文档来自技高网...

【技术保护点】
1.一种TTS的方法,其特征在于,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;所述序列输入到wavenet声码器;所述wavenet声码器对所述序列进行特征建模,并生成对应的音频;所述tacotron模型为频谱预测网络,包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。

【技术特征摘要】
1.一种TTS的方法,其特征在于,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;所述序列输入到wavenet声码器;所述wavenet声码器对所述序列进行特征建模,并生成对应的音频;所述tacotron模型为频谱预测网络,包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。2.如权利要求1所述的TTS的方法,其特征在于,所述编码器和解码器通过使用双向长短时记忆神经网络和卷积网络连接。3.如权利要求1所述的TTS的方法,其特征在于,所述wavenet声码器为wavenet模型,所述wavenet模型使用带洞卷积算法。4.如权利要求3所述的TTS的方法,其特征在于,所述wavenet模型为并行化模型,包括wavenet和并行wavenet,所述wavenet和并行wavenet都包含wavenet块,且所述并行wavenet包含的wavenet块的数量至少为所述wavenet的两倍。5.如权利要求4所述的TT...

【专利技术属性】
技术研发人员:司马华鹏毛志强
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1