【技术实现步骤摘要】
一种基于对比学习和生成对抗网络的零样本通用声码器方法
[0001]本专利技术涉及语音合成
,尤其涉及一种基于对比学习和生成对抗网络的零样本通用声码器方法。
技术介绍
[0002]随着人工智能的发展与智慧城市、智能家居的普及,语音合成越来越多地出现在人们地生活中,因此波形的生成与建模,也是最近十分需要但又具有很大挑战性的任务。
[0003]目前已经有大量的研究证明声码器在使用单个说话者话语进行训练时在生成速度和音频保真度方面具有卓越的性能。然而,一些模型在多个领域,如多说话人、多语言或多风格语音等,生成表现自然的声音时仍然面临困难。这些模型的能力可以通过模型在多个说话者的数据上训练时的音质和生成训练集中不存在的音频的音质来进行评估。可以在各种域中生成高保真音频的声码器,可以应对无论输入是在训练期间遇到还是来自训练集外的情况,通常称为通用声码器。经过神经网络声码器技术的成熟,从基于因果卷积的声码器WaveNet这一类的自回归声码器,到基于生成对抗网络的声码器,通过模型机构的不断优化以及损失函数的调整等方法,新近的声 ...
【技术保护点】
【技术特征摘要】
1.一种基于对比学习和生成对抗网络的零样本通用声码器方法,其特征在于,包括以下步骤:步骤1,将目标合成的梅尔谱输入模型并对值求对数进行变换;步骤2,将输入的梅尔谱输入说话人编码器,得到说话人编码表示;步骤3,将步骤1中输入的梅尔谱与步骤2中得到的说话人编码表示输入生成器,在经过对抗训练的生成模块中经过多次上采样与卷积,最后生成模块输出合成的人耳可听的波形。2.根据权利要求1所述的零样本通用声码器方法,其特征在于,在所述步骤1中,要对输入的梅尔谱数值进行归一化,再将归一化后的梅尔谱输入模型。3.根据权利要求1所述的零样本通用声码器方法,其特征在于,在所述步骤2中,说话人编码器通过无监督方法对梅尔谱中隐含的说话人特征信息进行编码,利用预训练的对比学习方法训练的残差网络,对梅尔谱进行学习与编码表示。4.根据权利要求3所述的零样本通用声码器方法,其特征在于,在所述步骤2中,说话人编码器包括对说话人特征进行抽取的34层残差网络、对说话人特征进行整合的池化层、线性层、激活层以及与聚合各个帧特征的沿时间方向的平均池化层,具体还包括如下步骤:步骤211:输入的梅尔谱经过残差网络进行特征提取,其中残差网络包含了16个残差块,进行特征提取与下采样,得到二维的说话人特征;步骤212:将得到的二维说话人特征进行平均池化,得到全局特征;步骤213:将步骤212得到的全局特征经过线性层进行映射,得到映射后的说话人特征;步骤214:将步骤213得到的说话人特征沿时间轴方向做平均池化,得到最终的一维的说话人编码表示。5.根据权利要求3所述的零样本通用声码器方法,其特征在于,在所述步骤2中,引入了对比学习方法来对说话人编码器进行预训练,具体步骤如下:步骤221:在训练阶段,说话人编码器使用一组随机音频组成一个训练批次作为输入,在该训练批次中,每个音频随机选取了两段固定长度且不重叠的子音频段,而每个音频段对应的梅尔谱则是梅尔谱编码器的输入,其中源自同一个源音频的梅尔谱互相为正样例,而来自不同源音频的梅尔谱则互相为负样例;步骤222:将步骤211中同一批次的训练集输入说话人编码器后,得到一组对应的梅尔谱片段的特征表示;步骤223:根据对比学习的方法,使用对比损失对输出的表示矩阵,计算每个特征表示向量之间的距离并计算损失。6.根据权利要求3所述的零样本通用声码器方法,其特征在于,在所述步骤3中,输入的梅尔谱在生成器中经过融合模块将说话人编码表示与生成的中间说话人表示融合,并经过多次上采样操作,将特征维度上采样到波形的维度,并通过卷积进行特征处理,特征再经过MRF块处理不同尺度下的波形特征,具体步骤如下:步骤31:输入的梅尔谱首先经过输入层进行预先的特征处理,输入层包括了一个一维卷积层,得到初步的波形的特征表示;步骤32:将步骤31得到的波形特征表示与步骤2得到的说话人编码表示输入融合模块进行融合;
步骤33:将波形特征表示与说话人编码表示经融合模块融合后得到的表示经过反卷积层进行上采样,波形特征表示可以通过多次的上采样达到最终波形的维度;步骤34:将上采样后的波形表示输入MRF模块处理不同尺度下的波形特征,MRF模块的具体形式为波形表示并行地通过不同扩张率的残差块,学习不同波形在不同尺度下的特征范式,使得合成的波形可以更好地...
【专利技术属性】
技术研发人员:汤步洲,李婉婷,陈屹婷,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。