【技术实现步骤摘要】
基于卷积神经和生成对抗网络的文本转语音方法及装置
[0001]本专利技术涉及自然语言处理和深度学习
,尤其涉及一种基于卷积神经和生成对抗网络的文本转语音(Text
‑
to
‑
Speech,简记为TTS)的方法及装置,本专利技术先使用融合了注意力机制的卷积神经网络,将输入文本转化为声学特征梅尔(Mel)谱,然后将得到的梅尔谱作为生成对抗网络中生成器的输入,合成最终的语音波形。
技术介绍
[0002]随着人工智能技术的快速发展,智能家居、智能家电、智能建筑和智能医疗等“智能+”应用为人们的生活带来了许多改变,而文本转语音是人机交互必不可少的一部分。如何高效率地从文本合成高质量的语音一直是语音领域内讨论的热点。现有的文本转语音主要有以下三种方法:传统的单元波形拼接合成方法
[1,2]和统计参数合成方法
[3,4],以及基于深度学习的各种合成网络。
[0003]单元波形拼接方法将原始音频根据音节剪切为独立单元进行存储。简单的波形技术中合成单元一旦确定就无法对其根据上下 ...
【技术保护点】
【技术特征摘要】
1.一种基于卷积神经和生成对抗网络的文本转语音方法,其特征在于,所述方法采用CNN前端网络与GAN后端网络结合的网络结构,所述方法包括:将文本作为输入,对应语音的声学特征梅尔谱作为输出,对前端网络进行训练,使得前端网络获得从文本提取声学特征的能力;将训练后的前端网络生成的声学特征梅尔谱作为输入,对应的语音波形作为输出,对后端网络进行训练,使得后端网络获得将声学特征梅尔谱转化为语音波形的能力。2.根据权利要求1所述的一种基于卷积神经和生成对抗网络的文本转语音方法,其特征在于,所述CNN前端网络的整体架构包括:文本编码器、音频编码器、音频解码器及注意力机制模块,所述注意力机制通过赋予与当前时刻输入文本有关联的对应的Mel谱帧更大的权重,实现文本与语音的对齐。3.根据权利要求1所述的一种基于卷积神经和生成对抗网络的文本转语音方法,其特征在于,所述文本编码器、音频编码器、音频解码器均由卷积神经...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。