【技术实现步骤摘要】
一种TTS的方法及系统
本公开涉及人工智能领域,尤其涉及一种TTS的方法及系统。
技术介绍
语音合成(TexttoSpeech),简称TTS技术,涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。TTS就是一个将文本转化为语音输出的过程,这个过程的工作主要是将输入的文本按字或词分解为特征向量,并且对文本中的数字、货币单位、单词变形以及标点等要特殊处理的符号进行分析,以及将特征向量生成数字转化为音频特征,最终用声码器将音频特征还原为音频文件的过程。端到端TTS技术中一般都会用编码器-解码器结构,近年来大多采用编码器-注意力机制-解码器结构使得合成更有韵律感,因此找到一种适合的注意力机制可以大大提高音频的自然度,但是让音频更清晰,就要结合好的声码器来还原音频,使得合成音频更像真人。
技术实现思路
本公开的目的是改进TTS过程中的注意力机制,并结合声码器新的训练方法,提出的一种新的TTS的方法。为解决上述技术问题,本公开提供了以下技术方案:一种TTS的方法,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所 ...
【技术保护点】
1.一种TTS的方法,其特征在于,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;所述序列输入到wavenet声码器;所述wavenet声码器对所述序列进行特征建模,并生成对应的音频;所述tacotron模型为频谱预测网络,包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。
【技术特征摘要】
1.一种TTS的方法,其特征在于,包括:提取文本信息,对所述文本信息预处理后输入到tacotron模型;所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;所述序列输入到wavenet声码器;所述wavenet声码器对所述序列进行特征建模,并生成对应的音频;所述tacotron模型为频谱预测网络,包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。2.如权利要求1所述的TTS的方法,其特征在于,所述编码器和解码器通过使用双向长短时记忆神经网络和卷积网络连接。3.如权利要求1所述的TTS的方法,其特征在于,所述wavenet声码器为wavenet模型,所述wavenet模型使用带洞卷积算法。4.如权利要求3所述的TTS的方法,其特征在于,所述wavenet模型为并行化模型,包括wavenet和并行wavenet,所述wavenet和并行wavenet都包含wavenet块,且所述并行wavenet包含的wavenet块的数量至少为所述wavenet的两倍。5.如权利要求4所述的TT...
【专利技术属性】
技术研发人员:司马华鹏,毛志强,
申请(专利权)人:南京硅基智能科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。