一种基于生成式对抗神经网络的高质量声码器模型制造技术

技术编号：34881197 阅读：27 留言：0更新日期：2022-09-10 13:38

本发明专利技术公开了一种基于生成式对抗神经网络的高质量声码器模型，该模型首先使用一个生成器模块进行从音频的Mel谱到波形形式的转换，其由含多视野融合块的Unet式沙漏形结构卷积神经网络搭建；使用一个声学特征提取器和多个鉴别器模块对生成的波形进行多重角度的优化；其中声学特征提取器使用传统信号处理方法构建，鉴别器模块由多尺度鉴别器、多周期鉴别器、多相位鉴别器三部分组成，基于卷积神经网络搭建。本发明专利技术大幅降低了神经网络的学习难度，节省训练时间和计算资源开销；利用了相位信息和时域上的自相似特征来对生成波形进行优化，获得更高音质的波形；使用了局部化训练策略，可以更自然流畅地合成任意长度的长音频序列。序列。序列。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于生成式对抗神经网络的高质量声码器模型

[0001]本专利技术涉及一种声码器模型，特别是一种基于生成式对抗神经网络的高质量声码器模型。

技术介绍

[0002]声码器(Vocoder)或声音合成器技术是针对音频波形数据进行编码和解码的数字信号处理技术。声码器技术目前已经得到了相当广泛的应用，包括信号数据压缩、语音及声纹识别、语音及歌声合成、音频编辑与效果器等。
[0003]在神经网络语音合成系统中，上游模型的输出通常是目标音频数据在该模型的某个隐空间中的编码，或是人为设计的某种更通用的频域音频编码，如：Mel谱、MFCC (Mel
‑
Frequency Ceptral Coefficients，梅尔频率倒谱系数)特征等。但这些编码无法直接通过声学输出设备产生可由人耳收听的声波，而需要先使用声码器将这些编码数据解码成时域的音频波形才能经扬声器等设备播放出来。声码器因而是此类声音处理系统中不可或缺的组件。
[0004]目前基于数字信号处理方法的传统声码器音质不佳、可控度小，而基于神经网络的声码器训练开销很大，忽略了对于音频的频域相位和时域自相似等信息的有效利用，导致训练收敛缓慢、合成波形仍有细节瑕疵等结果。

技术实现思路

[0005]专利技术目的：本专利技术所要解决的技术问题是针对现有技术的不足，提供一种基于生成式对抗神经网络的高质量声码器模型。
[0006]为了解决上述技术问题，本专利技术公开了一种基于生成式对抗神经网络的高质量声码器模型，包括以下步骤：r/>[0007]步骤1，构建基于生成式对抗神经网络的高质量声码器模型，该模型包括：生成器、声学特征提取器、多尺度判别器、多周期判别器和多相位判别器；
[0008]步骤2，从数据集获取PCM编码的音频数据，得到真实波形；
[0009]步骤3，对步骤2中所得真实波形进行预处理，训练集与验证集划分，训练集的切片化，得到Mel谱和粗糙波形；
[0010]步骤4，将步骤3中所得的Mel谱和粗糙波形送入生成器得到生成波形；
[0011]步骤5，将步骤2中的真实波形与其对应的步骤4中的生成波形送入声学特征提取器及三个判别器，即多尺度判别器、多周期判别器和多相位判别器，得到声学特征、三个判别器的评分以及三个判别器的特征图，再代入判别器损失函数计算得到三个判别器损失值，优化判别器参数；
[0012]步骤6，将步骤5所述的声学特征、判别器的评分和特征图代入生成器损失函数计算得到生成器损失，优化生成器参数；重复步骤5和6的训练过程，直到声码器模型收敛；
[0013]步骤7，使用步骤3中所得验证集数据对进行模型性能评估，完成基于生成式对抗
神经网络的高质量声码器模型的构建和训练。
[0014]本专利技术步骤2中，所述数据集不对音频数据内容是音乐、人声或噪声进行限制，音频数据为PCM编码的一组音频文件。
[0015]本专利技术步骤3中所述预处理包括：线性幅度谱、相位谱、Mel谱、粗糙波形和电平包络特征的提取，方法如下：
[0016]先将所有音频数据以统一的采样率进行重采样，然后提取音频特征，包括：通过短时傅里叶变换提取线性幅度谱和相位谱；再通过Mel滤波器组提取Mel谱，进而通过Griffin
‑
Lim算法获取粗糙波形；通过MaxPooling池化层提取电平包络。
[0017]本专利技术步骤3中所述训练集与验证集划分包括：将数据划分为不相交的训练集和测试集。
[0018]本专利技术步骤3中所述训练集的切片化包括：对于训练集的数据再进行可重叠的、固定长度的切片，以实现局部化训练策略。
[0019]本专利技术步骤4中所述生成器为多视野融合与Unet式沙漏形结构的卷积神经网络；该网络以给定Mel谱为参照，将粗糙波形通过编码器缩短以及解码器拉伸的多步变换得到生成波形；该网络包括：
[0020]由Conv1D下采样层组成的编码器，将粗糙波形从时域空间转换到谱空间；
[0021]由ConvTransposed1D上采样层组成的解码器，将谱空间的隐层编码还原到时域空间；
[0022]编码器和解码器中包含的多个带残差的多视野融合块ResBlock，作为特征映射的主干网络；
[0023]采用解码器中包含的多个Conv1D拼接层，融合来自编码器中的对等层的隐层编码信息，得到生成波形。
[0024]本专利技术步骤5中，所述声学特征提取器为一个用于以提取相位谱的短时傅里叶变换过程；
[0025]所述三个判别器分别为：多尺度判别器、多周期判别器和多相位判别器；
[0026]其中，多尺度鉴别器使用Conv1D网络在三个不同波形尺度上鉴别生成波形的真伪，包括原波形、两倍降采样波形和四倍降采样波形；多周期判别器分别在分组周期为2、3、5、7和11这五种情况下，使用Conv2D网络鉴别分组化后的生成波形的真伪；多相位判别器在FFT点数分别为512、1024和2048这三套设置下，使用Conv2D 网络鉴别生成波形经过声学特征提取器所得相位谱的真伪；
[0027]所述判别器损失为三项判别器对抗损失之和，所用优化器为Adam。
[0028]本专利技术步骤5中，计算三个判别器损失值的方法包括：
[0029]每个判别器都有两个输出：判别器的评分D
x
，判别器的特征图其中下标x取 s、f和p以分别指代多尺度鉴别器、多周期鉴别器和多相位鉴别器；
[0030]所述判别器损失包含：来自三个判别器的评分所构成的判别器对抗损失，方法为：
[0031]loss
d
＝d
s
+d
f
+d
p
[0032]其中，三个判别器对抗损失d
s
、d
f
和d
p
分别为：
[0033][0034][0035][0036]其中，多尺度判别器的评分为D
s
，多周期判别器的评分为D
f
，多相位判别器的评分为D
p
，生成器为G，目标真实波形为y，待解码Mel谱为mel，待解码Mel谱的粗糙波形为wav；三个判别器评分上的短横线表示均值。
[0037]本专利技术步骤6中，所述声学特征提取器包含：一个用于以提取相位谱的短时傅里叶变换过程，一个用以提取波形实际电平包络的MaxPooling层；
[0038]所述判别器与优化器与步骤5中一致；
[0039]生成器损失loss
g
包括：三项生成器对抗损失，三项生成器特征图损失，多重谱幅度损失，电平包络损失，波形自相似损失，具体计算方法包括：
[0040]loss
g
＝(g
s
+g
f
+g
p
)+α*(fm
s
+fm
f
+fm
p
)+β*mstft+γ*dyn+δ本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于生成式对抗神经网络的高质量声码器模型，其特征在于，包括以下步骤：步骤1，构建基于生成式对抗神经网络的高质量声码器模型，该模型包括：生成器、声学特征提取器、多尺度判别器、多周期判别器和多相位判别器；步骤2，从数据集获取脉冲编码调制PCM编码的音频数据，得到真实波形；步骤3，对步骤2中所得真实波形进行预处理，训练集与验证集划分，训练集的切片化，得到Mel谱和粗糙波形；步骤4，将步骤3中所得的Mel谱和粗糙波形送入生成器得到生成波形；步骤5，将步骤2中的真实波形与其对应的步骤4中的生成波形送入声学特征提取器及三个判别器，即多尺度判别器、多周期判别器和多相位判别器，得到声学特征、三个判别器的评分以及三个判别器的特征图，再代入判别器损失函数计算得到三个判别器损失值，优化判别器参数；步骤6，将步骤5所述的声学特征、判别器的评分和特征图代入生成器损失函数计算得到生成器损失，优化生成器参数；重复步骤5和6的训练过程，直到声码器模型收敛；步骤7，使用步骤3中所得验证集数据对进行模型性能评估，完成基于生成式对抗神经网络的高质量声码器模型的构建和训练。2.根据权利要求1所述的一种基于生成式对抗神经网络的高质量声码器模型，其特征在于，步骤2中，所述数据集不对音频数据内容是音乐、人声或噪声进行限制，音频数据为PCM编码的一组音频文件。3.根据权利要求2所述的一种基于生成式对抗神经网络的高质量声码器模型，其特征在于，步骤3中所述预处理包括：线性幅度谱、相位谱、Mel谱、粗糙波形和电平包络特征的提取，方法如下：先将所有音频数据以统一的采样率进行重采样，然后提取音频特征，包括：通过短时傅里叶变换提取线性幅度谱和相位谱；再通过Mel滤波器组提取Mel谱，进而通过Griffin
‑
Lim算法获取粗糙波形；通过最大池化层MaxPooling池化层提取电平包络。4.根据权利要求3所述的一种基于生成式对抗神经网络的高质量声码器模型，其特征在于，步骤3中所述训练集与验证集划分包括：将数据划分为不相交的训练集和测试集。5.根据权利要求4所述的一种基于生成式对抗神经网络的高质量声码器模型，其特征在于，步骤3中所述训练集的切片化包括：对于训练集的数据再进行可重叠的、固定长度的切片，以实现局部化训练策略。6.根据权利要求5所述的一种基于生成式对抗神经网络的高质量声码器模型，其特征在于，步骤4中所述生成器为多视野融合与Unet式沙漏形结构的卷积神经网络；该网络以给定Mel谱为参照，将粗糙波形通过编码器缩短以及解码器拉伸的多步变换得到生成波形；该网络包括：由一维卷积Conv1D下采样层组成的编码器，将粗糙波形从时域空间转换到谱空间；由一维转置卷积ConvTransposed1D上采样层组成的解码器，将谱空间的隐层编码还原到时域空间；编码器和解码器中包含的多个带残差的多视野融合块ResBlock，作为特征映射的主干网络；采用解码器中包含的多个Conv1D拼接层，融合来自编码器中的对等层的隐层编码信
息，得到生成波形。7.根据权利要求6所述的一种基于生成式对抗神经网络的高质量声码器模型，其特征在于，步骤5中，所述声学特征提取器为一个用于以提取相位谱的短时傅里叶变换过程；所述三个判别器分别为：多尺度判别器、多周期判别器和多相位判别器；其中，多尺度鉴别器使用Conv1D网络在三个不同波形尺度上鉴别生成波形的真伪，包括原波形、两倍降采样波形和四倍降采样波形；多周期判别器分别在分组周期为2、3、5、7和11这五种情况下，使用二维卷积Conv2D网络鉴别分组化后的生成波形的真伪；多相位判别器在快速傅里叶变换点数FFT分...

【专利技术属性】
技术研发人员：陈力军，刘佳，蒋松儒，陈星宇，鄢伟，
申请(专利权)人：江苏图客机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人