【技术实现步骤摘要】
一种基于半流模型的声码器语音合成方法
[0001]本专利技术涉及语音合成
,尤其是涉及一种基于半流模型的声码器语音合成方法。
技术介绍
[0002]随着人类与机器的语音交互日益频繁,如何高效率的合成高质量语音越来越得到人们的重视。语音质量或延迟的微小变化对用户体验有着极大影响。然而,高质量的实时语音合成仍然是一项具有挑战性的任务。语音合成需要生成具有高度长期依赖性的高维音频样本。人类对音频样本中的这种依赖型是十分敏感的。除了质量挑战之外,实时语音合成还面临着生成速度和计算资源受限等诸多问题。当音频采样率小于16kHz时,感知语音质量会发生显著下降,更高的采样率会产生更高质量的语音。然而大多数情况下用户要求合成速率比16kHz快得多的音频。例如,在远程服务器上合成语音时,严格的交互性要求意味着必须以远远超过实时要求的采样率快速合成语音。
[0003]目前,最先进的语音合成模型都是基于神经网络的。文本到语音合成通常分为两个步骤:第一步将文本转换为时间对齐的特征,如梅尔谱图、F0特征或其他语言特征。第二步则是将这些时 ...
【技术保护点】
【技术特征摘要】
1.一种基于半流模型的声码器语音合成方法,其特征在于,包括:获取待合成的原始音频数据,并载入预先构建并训练好的基于半流模型的声码器中,获取合成的语音波形;所述基于半流模型的声码器包括基于半流的基本模型,该基于半流的基本模型包括多个依次拼接的Flow层,每个Flow层均包括依次连接的半流模型层和卷积网络层,所述半流模型层由自回归流算法和规范化流算法结合构成。2.根据权利要求1所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述半流模型层中高维输入向量x和高维输入向量y之间的映射关系为:x=(x1,x2),y0=0(s1,t1)=g(m(x1,y0))y1=s1⊙
x1+t1(s2,t2)=g(m(x2,y1))y2=s2⊙
x2+t2y=(y1,y2)式中,x1和x2代表了x的前后两半部分,y0为常向量0,g和m为函数或者神经网络,m和g可以是任意变换,s1,s2,u1,u2为仿射因子,
⊙
代表哈达玛积,y1和y2代表了y的前后两半部分。3.根据权利要求1所述的一种基于半流模型的声码器语音合成方法,其特征在于,四个所述Flow层构成一个Scale层,所述基于半流的基本模型包括多个Scale层,Scale层选取一半维度的向量直接作为输出、另一半输入到下一个Scale层。4.根据权利要求3所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述Flow层的数量为12个,所述卷积网络层为1
×
1卷积网络。5.根据权利要求1所述的一种基于半流模型的声码器语音合成方法,其特征在于,所述基于半流模型的声码器的训练过程包括:在基于半流的基本模型前设置预处理模块,该预处理模块用于将输入的音频数据转换为梅尔频谱;获取训练集和测试集,将所述训练集载入基于半流的基本模型中,通过所述预处理模块转换为梅尔频谱,然后经过所述基于半流的基本模型合成语音波形,从而进行模型训练;将训练后的基于半流的基本模型逆置,将测试集中的数据转换为梅尔频谱,然...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。