当前位置: 首页 > 专利查询>厦门大学专利>正文

基于概率生成和非自回归模型的多说话人语音合成方法技术

技术编号:32886125 阅读:25 留言:0更新日期:2022-04-02 12:21
本发明专利技术提出了一种基于概率生成和非自回归模型的多说话人语音合成方法,包括:S1、说话人个性化编码器和概率生成编码器接收目标梅尔频谱并分别提取说话人个性化向量和概率生成向量;S2、基于深度网络的编码器对拼接融合的输入向量进行编码得到音素级深层特征;S3、音素时长预测器接收拼接融合的融合特征并预测音素时长序列;S4、长度规整网络接收音素时长序列并对融合特征进行扩展,得到帧级特征;S5、基于深度网络的解码器接收帧级特征并映射为预测梅尔频谱,后处理网络补充预测梅尔频谱的残差信息;S6、声码器将补充了残差信息的预测梅尔频谱映射为声音波形,得到合成语音。本发明专利技术能够提高多说话人语音合成系统的泛化性和合成语音的相似性。和合成语音的相似性。和合成语音的相似性。

【技术实现步骤摘要】
基于概率生成和非自回归模型的多说话人语音合成方法


[0001]本专利技术涉及语音合成的
,具体涉及一种基于概率生成和非自回归模型的多说话人语音合成方法。

技术介绍

[0002]语音合成(Text To Speech,TTS)是指可以将任意文字转换为音频的技术,近年来,基于深度学习的端到端单说话人语音合成模型已经能合成清晰且自然的语音,随着语音合成技术的进一步发展,其应用场景逐渐增多,对多说话人语音合成技术也有了一定的需求,如:音库快速定制、有声小说等。
[0003]传统的多说话人语音合成(multi

speaker TTS)系统以独热向量来表示说话人身份,并通过改变独热向量以合成特定说话人的语音,但是独热向量只是一种离散的表示,本身不包含说话人信息,只能表示数据集中出现的说话人。
[0004]针对集外样本的场景,主流的多说话人语音合成系统独立训练说话人识别系统与语音合成系统,为多说话人语音合成模型提供预训练的说话人个性化编码器,再将说话人个性化编码器引入到语音合成系统中,使用其编码的说话人嵌入向量表示说话人身份,说话人嵌入向量包含了目标说话人的特征信息。相比于传统的多说话人语音合成系统,该系统可以对数据集外的说话人进行建模,且可以从语音合成训练数据之外的数据中获益。但是,该系统对于集外说话人的语音合成具有泛化性不足、相似度较低的缺陷。
[0005]此外,常见的多说话人语音合成模型基于单说话人模型的声学特征合成框架进行拓展,大多使用自回归模型,无法并行解码导致合成语音较慢;少数使用非自回归模型的多说话人语音合成系统存在对集外说话人的合成语音泛化性的问题。
[0006]因此,本申请提供一种基于概率生成和非自回归模型的多说话人语音合成方法,以实现能够提取出更具有泛化性的说话人特征,且提高集外说话人语音合成相似度。

技术实现思路

[0007]为了解决现有技术中的多说话人语音合成系统针对数据集外说话人具有的泛化性不足、相似度较低的技术问题,本专利技术提出了一种基于概率生成和非自回归模型的多说话人语音合成方法,用于解决上述技术问题以实现。
[0008]本申请提出了一种基于概率生成和非自回归模型的多说话人语音合成方法,包括:
[0009]S1、多说话人语音合成系统接收文本向量和目标说话人语音转换成的目标梅尔频谱作为输入,说话人个性化编码器和概率生成器接收所述目标梅尔频谱,并分别提取出说话人个性化向量和概率生成向量;
[0010]S2、基于深度网络的编码器接收由所述说话人个性化向量和所述文本向量拼接融合后的输入向量,对所述输入向量进行编码并提取深层次的特征得到音素级深层特征;
[0011]S3、利用音素时长预测器接收由所述音素级深层特征和所述概率生成向量拼接融
合后的融合特征,并预测出音素时长序列;
[0012]S4、利用长度规整网络接收所述音素时长序列并对所述融合特征进行扩展,使得所述融合特征的长度与所述目标梅尔频谱的时间长度相等,从而得到帧级特征;
[0013]S5、基于深度网络的解码器接收所述帧级特征并映射为与所述目标梅尔频谱相同维度的预测梅尔频谱,利用后处理网络补充所述预测梅尔频谱的残差信息;
[0014]S6、利用声码器将补充了残差信息的所述预测梅尔频谱映射为声音波形,得到合成语音。
[0015]通过上述技术方案,以单句目标说话人语音转换成的梅尔频谱作为输入,通过说话人编码器和概率生成编码器分别提取出说话人个性化向量和概率生成向量并联合成输入向量,基于深度网络的编码器对输入向量进行编码得到音素级深层特征,然后通过音素时长预测器接收由音素级深层特征和概率生成向量拼接融合的融合特征并预测出音素时长序列,再通过长度规整网络对融合特征进行规整得到帧级特征,基于深度网络的解码器将帧级特征映射为预测梅尔频谱,通过后处理网络补充残差信息,最后经由声码器映射为声音波形,从而合成语音。本专利技术能够提取出更具有泛化性的说话人特征,满足对集外说话人语音合成的应用需求,可用于非自回归的多说话人语音合成的模型构建中,提高多说话人语音合成系统的泛化性和合成语音的相似性。
[0016]优选的,所述概率生成编码器与所述多说话人语音合成系统通过优化损失函数进行联合优化,从而从所述目标梅尔频谱中提取出所述概率生成向量。
[0017]概率生成向量包含了句子级别的说话人个性化信息和文本信息,文本信息在基于深度网络的编码器中已经被捕获,说话人个性化信息可以对说话人个性向量中缺失的说话人表征进行弥补。
[0018]优选的,所述优化损失函数具体为:
[0019][0020]其中,L为多说话人语音合成系统的优化损失函数,MAE为绝对误差,MSE为均方误差,x为目标梅尔频谱,为未经过后处理网络的预测梅尔频谱,为经过后处理网络的预测梅尔频谱,d为通过预训练的语音识别模型提取的真实音素时长序列,为音素时长预测器预测的音素时长序列,KL表示概率生成编码器估计出的z的分布q
φ
(z|x)和预先假设的z的先验分布p
θ
(z)之间的距离,p
θ
(z)为标准正态分布。
[0021]优选的,所述概率生成编码器包括二维卷积神经网络、门控循环单元和第一全连接层,所述概率生成向量的获取步骤具体包括:
[0022]利用变分自编码器接收所述目标梅尔频谱,输出固定长度的向量;
[0023]所述向量经过所述二维卷积神经网络,所述二维卷积神经网络中的卷积层提取出所述目标说话人语音中的局部特征,得到输出序列;
[0024]所述输出序列经过所述门控循环单元建立时序相关性;
[0025]所述门控循环单元的最后一个时间步的最后一个状态输入至第一全连接层,所述第一全连接层输出得到概率分布的均值和标准差,对所述概率分布的均值和标准差进行采样,从而获取所述概率生成向量。
[0026]优选的,所述说话人个性化编码器采用的是x

vector模型,所述x

vector模型是
通过对文本无关的说话人识别任务进行预训练,再固定相关参数得到的,所述x

vector模型包括帧级别学习层、统计池化层和段级别学习层,所述说话人个性化向量的获取步骤具体包括:
[0027]所述帧级别学习层接收所述目标梅尔频谱,获取深层次的说话人特征并输入至所述统计池化层;
[0028]所述统计池化层计算所述目标说话人语音中每句话的均值和标准差并输入至所述段级别学习层;
[0029]所述段级别学习层包含两层第二全连接层,选取第一层所述第二全连接层提取出所述说话人个性化向量。
[0030]进一步优选的,在所述二维卷积神经网络中的每一层卷积层后均加入批量归一化层。
[0031]通过在二维卷积神经网络中的每一层卷积层后均加入批量归一化层,使得网络在各层的中间输出的值更为稳定。
[0032]进一步优选的,所述帧级别学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于概率生成和非自回归模型的多说话人语音合成方法,其特征在于,包括以下步骤:S1、多说话人语音合成系统接收文本向量和目标说话人语音转换成的目标梅尔频谱作为输入,说话人个性化编码器和概率生成器接收所述目标梅尔频谱,并分别提取出说话人个性化向量和概率生成向量;S2、基于深度网络的编码器接收由所述说话人个性化向量和所述文本向量拼接融合后的输入向量,对所述输入向量进行编码并提取深层次的特征得到音素级深层特征;S3、利用音素时长预测器接收由所述音素级深层特征和所述概率生成向量拼接融合后的融合特征,并预测出音素时长序列;S4、利用长度规整网络接收所述音素时长序列并对所述融合特征进行扩展,使得所述融合特征的长度与所述目标梅尔频谱的时间长度相等,从而得到帧级特征;S5、基于深度网络的解码器接收所述帧级特征并映射为与所述目标梅尔频谱相同维度的预测梅尔频谱,利用后处理网络补充所述预测梅尔频谱的残差信息;S6、利用声码器将补充了残差信息的所述预测梅尔频谱映射为声音波形,得到合成语音。2.根据权利要求1所述的方法,其特征在于,所述概率生成编码器与所述多说话人语音合成系统通过优化损失函数进行联合优化,从而从所述目标梅尔频谱中提取出所述概率生成向量。3.根据权利要求2所述的方法,其特征在于,所述优化损失函数具体为:其中,L为多说话人语音合成系统的优化损失函数,MAE为绝对误差,MSE为均方误差,x为目标梅尔频谱,为未经过后处理网络的预测梅尔频谱,为经过后处理网络的预测梅尔频谱,d为通过预训练的语音识别模型提取的真实音素时长序列,为音素时长预测器预测的音素时长序列,KL表示概率生成编码器估计出的z的分布q
φ
(z|x)和预先假设的z的先验分布p
θ
(z)之间的距离,p
θ
(z)为标准正态分布。4.根据权利要求1所述的方法,其特征在于,所述概率生成编码器包括二维卷积神经网络、门控循环单元和第一全连接层,所述概率生成向量的获取步骤具体包括:利用变分自编码器接收所述目标梅尔频谱,输出固定长度的向量;所述向量经过所述二维卷积神经网络,所述二维卷积神经网络中的卷积层提取出所述目...

【专利技术属性】
技术研发人员:李琳欧阳贝贝洪青阳
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1