一种基于DNN-HMM双模态对齐网络的端到端语音合成方法及系统技术方案

技术编号：25839740 阅读：64 留言：0更新日期：2020-10-02 14:19

本发明专利技术公开了一种基于DNN‑HMM双模态对齐网络的端到端语音合成方法及系统，属于智能语音交互领域。本方法利用帧长预测模块替换传统端到端attention的自回归的结构，以及利用卷积变化模块和双向长短期记忆网络构建编码器和解码器，减少了大量的模型参数。通过在DNN‑HMM双模态对齐网络训练得到音素帧长序列的基础上，再去训练端到端语音合成模型，从而避免了传统端到端语音合成模型通过自回归注意力的形式来得文本和音频对齐信息的过程。训练得到的模型不仅能够保证端到端模型合成的音频的高自然度，而且能够大幅降低语音合成时的计算资源消耗以及时间占比，从而能够实现在低计算资源的硬件上部署端到端语音合成技术。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DNN-HMM双模态对齐网络的端到端语音合成方法及系统
本专利技术涉及智能语音交互领域，进一步涉及计算机智能语音合成领域，具体涉及一种基DNN-HMM双模态对齐网络的端到端语音合成方法及系统。
技术介绍
最近几年，随着深度学习地兴起，深度网络模型已经在机器学习许多领域中占主导地位。语音合成（TexttoSpeech,TTS），即从文字符号合成人工语音的过程，也逐渐被端到端的深度神经网络所代替。在人们探索语音合成的早期，学者们提出了基于的统计参数的语音合成方法。基于统计参数的语音合成方法主要根据语音特征的参数表示，如Mel频谱、基频等声学特征参数，通过隐马尔可夫模型（HMM）建模与和文本的相关特征形成关联，能够将文本特征转化为声学参数，再利用数学公式建立发声模型将声学参数转化为合成音频。但由于特定的声学特征和文本特征、以及传统的HMM模型的准确率问题，使其声音合成的质量有所限制。随着近几年深度学习的兴起，更多的人尝试用深度模型来代替传统的HMM模型，但这些都是在基于统计参数的这个框架下，虽然使用深度神经...

【技术保护点】
1.一种基于DNN-HMM双模态对齐网络的端到端语音合成方法，其特征在于，包括以下步骤：/n步骤1：获取样本文本及对应的标准语音音频，将样本文本转化为音素输入序列，标准语音音频转化为标准mel频谱；/n步骤2：将当前样本的音素输入序列和当前样本的标准语音音频输入到预训练的DNN-HMM双模态对齐网络中进行文本语音对齐，得到每个音素对应的标准帧长信息，构成标准音素帧长序列；/n步骤3：构建语音合成模型，包括编码器、帧长预测模块、扩展模块、解码器和声码器；首先通过编码器获得步骤1所述音素输入序列的编码表示，将音素输入序列的编码表示作为帧长预测模块的输入，以标准音素帧长序列作为标签，计算得到帧长预测...

【技术特征摘要】
1.一种基于DNN-HMM双模态对齐网络的端到端语音合成方法，其特征在于，包括以下步骤：
步骤1：获取样本文本及对应的标准语音音频，将样本文本转化为音素输入序列，标准语音音频转化为标准mel频谱；
步骤2：将当前样本的音素输入序列和当前样本的标准语音音频输入到预训练的DNN-HMM双模态对齐网络中进行文本语音对齐，得到每个音素对应的标准帧长信息，构成标准音素帧长序列；
步骤3：构建语音合成模型，包括编码器、帧长预测模块、扩展模块、解码器和声码器；首先通过编码器获得步骤1所述音素输入序列的编码表示，将音素输入序列的编码表示作为帧长预测模块的输入，以标准音素帧长序列作为标签，计算得到帧长预测模块的时长损失；
扩展模块以标准音素帧长序列为参考，对音素输入序列的编码表示进行扩展，再经解码器解码得到对应的语音mel频谱，以标准mel频谱作为标签，计算解码器的mel频谱损失；
步骤4：对语音合成模型进行端到端训练，将帧长预测模块的时长损失和解码器的mel频谱损失相加作为全局损失，利用全局损失进行反向传播训练，得到训练好的语音合成模型；
步骤5：将待处理文本转化为待处理音素输入序列后作为训练好的语音合成模型的输入，将语音合成模型中的帧长预测模块输出的预测音素帧长序列作为扩展模块的参考，对待处理音素输入序列的编码表示进行扩展，再经解码器解码得到对应的语音mel频谱，进行语音播放。

2.如权利要求1所述的一种基于DNN-HMM双模态对齐网络的端到端语音合成方法，其特征在于，所述的DNN-HMM双模态对齐网络采用TDNN语音识别模型中的对齐模块。

3.如权利要求1所述的一种基于DNN-HMM双模态对齐网络的端到端语音合成方法，其特征在于，所述编码器由embedding层、三个独立的卷积层变化模块、以及第一双向长短期记忆网络依次连接构成。

4.如权利要求1所述的一种基于DNN-HMM双模态对齐网络的端到端语音合成方法，其特征在于，所述解码器由第二双向长短期记忆网络、三个独立的卷积层变化模块、以及全连接神经网络依次连接构成。

5.如权利要求3或4所述的一种基于DNN-HMM双模态对齐网络的端到端语音合成方法，其特征在于，所述三个独立的卷积层变化模块中每一个卷积核的宽度为5，步长为1，padding为...

【专利技术属性】
技术研发人员：陈飞扬，赵洲，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人