融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法技术

技术编号:38881509 阅读:18 留言:0更新日期:2023-09-22 14:11
本发明专利技术公开一种融合增强编码模块和LGNet网络的编

【技术实现步骤摘要】
融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法


[0001]本专利技术涉及跨语种语音转换
,具体地说,是一种融合增强编码模块和LGNet网络的编

解码器结构跨语种语音转换方法。

技术介绍

[0002]语音转换是语音信号处理领域中重要的研究分支,该技术的研究有着重要的理论价值和应用前景。语音转换是一种将源语句中说话人的身份特征转换为目标语句中说话人的身份特征,同时保证源语句的语义特征不变的技术。传统的语音转换专注于解决同语种语音转换问题,即要求源和目标语句的语种相同。跨语种语音转换打破了相同语种的限制,源和目标语句的语种和文本均不相同。
[0003]得益于深度学习的发展,跨语种语音转换取得了突破性进展。Mohammadi等人在2018年提出了基于因式分层变分自编码器模型的跨语种语音转换方法(Investigation of using disentangled and interpretable representations for one

shot cross

lingual voice conversion.Mohammadi S H,Kim T.arXiv preprint arXiv:1808.05294,2018.),该方法利用FHVAE模型对语音中的多尺度信息建模,在实现跨语种语音转换时,先从不同语种语音的声学特征中分解出语义内容表征和说话人信息表征,然后将两者融合后得到转换后的声学特征,从而生成转换语音。2020年,Tobing等人提出基于循环变分自编码器(CycleVAE)模型的跨语种语音转换方法(Baseline system of Voice Conversion Challenge 2020with cyclic variational autoencoder and Parallel WaveGAN.Tobing P L,Wu Y C,Toda T.arXiv preprint arXiv:2010.04429,2020.),该方法利用VAEs模型的解纠缠能力,从声学特征中提取表征语义内容的潜在编码向量,并用one

hot编码向量表征说话人身份,指导模型生成重构的源声学特征和转换声学特征,之后将转换声学特征再次输入模型进行循环操作。2022年,Lu和Wang等人提出了基于β

VAE的跨语种语音转换方法(Disentangled Speech Representation Learning for One

Shot Cross

Lingual Voice Conversion Usingβ

VAE.Lu H,Wang D,Wu X,et al.2022IEEE Spoken Language Technology Workshop(SLT).IEEE,2023:814

821.),该方法将内容表征与声学特征、说话人信息表征和声学特征之间的KL散度作为各表征与声学特征之间互信息量的上界。同时在KL散度项中引入β
c
和β
s
两个权重参数,用于控制内容表征和说话人信息表征可以捕获的数据信息量。戴提出了基于激活指导和内卷积的跨语种语音转换方法(基于激活指导和内卷积的跨语种语音转换研究.戴少梁.南京邮电大学,2022.DOI:10.27251/d.cnki.gnjdc.2022.001228.)。该方法采用U型连接的编

解码器结构,利用激活指导函数作为软瓶颈可以提取不同语种的语义内容表征,从而实现任意说话人之间的跨语种语音转换。
[0004]上述提到的各种跨语种语音转换方法已经从闭集情形下的转换发展到了开集情形,即任意对任意跨语种语音转换。虽然在应用场景上得到了扩展,但转换语音的质量还不
能令人满意,一定程度上存在语义内容不完整和说话人相似度较低等问题。

技术实现思路

[0005]为了解决上述问题,本专利技术提供一种融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,该方法在编码器E中引入了增强编码模块。在增强编码模块中用递归门控卷积替换了原来编码模块中的普通卷积,可以将自注意中的二阶相互作用扩展到任意阶,实现具有有限复杂性的高阶空间交互,使得编码器E可以提取到包含更丰富信息的源语句的内容表征C1,从而有效地解决了现有的跨语种语音转换方法中转换语音语义内容不完整的问题,提高了转换语音的质量;进一步在编码器E和解码器D的中间增加LGNet网络。借鉴Transformer的成功经验,LGNet网络将传统的ResNet网络中使用的批归一化替换成层归一化,并且仅保留了一维深度卷积层后面的归一化,借助层归一化使用每个样本的特征维度上的统计信息,对每个样本都有独立的归一化,从而提高模型的泛化能力,另外减少归一化的使用降低模型对微小扰动的敏感性;将ReLU激活函数替换成GELU激活函数,并且仅保留了第一个全连接层后面的激活函数,借助GELU激活函数具有更强的非线性表示能力能够更好地逼近复杂的非线性关系,从而使得网络能够学习更复杂的特征表示,提高模型的表达能力,另外减少激活函数的使用可以降低梯度消失等问题发生的概率,提高网络的稳定性。这些改变可以提升网络的表达能力。另外,LGNet网络用一维深度卷积替换了一维普通卷积。因此,相比在转换模型中增加ResNet网络,增加LGNet网络减少了计算量,从而减少了转换模型的训练时间。利用LGNet网络对源语句的内容表征C1进一步优化,得到优化的源语句的内容表征LG(C1),使得包含更丰富信息的源语句的内容表征C1中的信息可以充分表达。在解码器中,优化后的源语句的内容表征LG(C1)在自适应实例归一化层中与目标语句的说话人信息表征S2充分融合,提升转换语音的自然度和说话人相似度,最终实现开集情形下的高质量跨语种语音转换。
[0006]本专利技术是通过以下技术方案来实现的:
[0007]一种融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,包括训练阶段和转换阶段,
[0008]所述训练阶段包括以下步骤:
[0009]步骤S1:获取大量的训练语料,训练语料由不同语种的多名说话人的语句组成;
[0010]步骤S2:将获取的训练语料进行预处理和特征提取;从每句训练语料的对数梅尔频谱特征中随机选取128帧并通过拼接得到对数梅尔频谱特征片段,表征为声学特征X;
[0011]步骤S3:将所述声学特征X输入到转换模型中进行模型训练,所述转换模型包括编码器E、LGNet网络和解码器D;所述编码器E对输入的声学特征X进行解纠缠,从中获得说话人信息表征S和内容表征C;所述编码器E和解码器D之间采用U型连接,将说话人信息表征S从编码器E传递到解码器D;所述LGNet网络对编码器E提取的内容表征C进一步优化得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,其特征在于,包括训练阶段和转换阶段,所述训练阶段包括以下步骤:步骤S1:获取大量的训练语料,训练语料由不同语种的多名说话人的语句组成;步骤S2:将获取的训练语料进行预处理和特征提取;从每句训练语料的对数梅尔频谱特征中随机选取128帧并通过拼接得到对数梅尔频谱特征片段,表征为声学特征X;步骤S3:将所述声学特征X输入到转换模型中进行模型训练,所述转换模型包括编码器E、LGNet网络和解码器D;所述编码器E对输入的声学特征X进行解纠缠,从中获得说话人信息表征S和内容表征C;所述编码器E和解码器D之间采用U型连接,将说话人信息表征S从编码器E传递到解码器D;所述LGNet网络对编码器E提取的内容表征C进一步优化得到LG(C),使得内容表征中的信息充分表达;所述解码器D将获取的说话人信息表征S和优化后的内容表征LG(C)进行重构,得到重构后的对数梅尔频谱特征D(LG(C),S),表征为声学特征X

;步骤S4:对转换模型进行训练的过程中,使所述转换模型的重构损失函数尽量小,设置所述转换模型的超参数,使得目标函数最小化,直至设置的迭代次数,从而得到训练好的转换模型;所述转换阶段包括以下步骤:步骤S5:选取不同语种的语句作为待转换语料,从待转换语料中分别选择不同语种的源语句和目标语句,分别提取源语句的对数梅尔频谱特征和目标语句的对数梅尔频谱特征,分别表征为声学特征X1和X2;步骤S6:将所述声学特征X1和X2输入到训练好的转换模型中,重构出转换语句的对数梅尔频谱特征,表征为声学特征X1→2;步骤S7:采用Griffin

Lim声码器,将获得的转换语句的声学特征X1→2转换为语音波形进行输出,从而获得跨语种语音转换的合成语音。2.根据权利要求1所述的融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,其特征在于,步骤S2所述的将获取的训练语料进行预处理和特征提取,具体步骤为:训练语料的采样率设置成24kHz,快速傅里叶变换的点数设置成2048,窗长设置为1200,窗移动长度设置为300。3.根据权利要求1所述的融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,其特征在于,步骤S3中,所述转换模型中的编码器E由2个一维卷积层、6个增强编码模块、6个实例归一化层和1个激活指导函数层组成,所述增强编码模块由1个递归门控卷积层、1个批归一化层、1个LeakyReLU激活函数和1个一维卷积层组成,所述增强编码模块和实例归一化层交替放置。4.根据权利要求3所述的融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,其特征在于,所述增强编码模块中的递归门控卷积将自注意中的二阶相互作用扩展到任意阶,编码器E将声学特征X经过编码器E中的第一个一维卷积层后得到的特征向量作为增强编码模块中递归门控卷积的输入,输入到递归门控卷积中的输入线性投影层φ
in
得到一组投影特征p0和所述的输入线性投影层的公式为:
其中,H和W表示特征向量Z的高和宽;C表示通道数;n表示高阶交互的阶数;C0,

,C
n
‑1表示不同投影特征对应的通道数;得到投影特征后,将其依次输入到递归门控卷积中进行递归运算,运算公式为:p
k+1
=f
k
(q
k
)vg
k
(p
k
)/α,k=0,1,

,n

1其中,α表示缩放系数;f
k
(
·
)表示深度卷积计算;g
k
(
·
)表示维度映射函数,

表示点积运算;将最后一步运算操作的输出p
n
馈送到输出线性投影层φ
out
后得到递归门控卷积的最终结果。5.根据权利要求1所述的融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,其特征在于,步骤S3中,所述转换模型中的LGNet网络由6个LGBlock卷积模块组成,每个LGBlock卷积模块由1个一维深度卷积层、1个层归一化层、1个GELU激活函数、1个正则化层和2个全连接层组成;每个LGBlock卷积模块之间使用残差连接相连。6.根据权利要求5所述的融合增强编码模块和LGNet网络的编

解码器结构的跨语种语音转换方法,其特征在于,一维深度卷积的每个卷积核通道数都是等于1,每个卷积核只负责输入特征的一个通道,因此卷积核的个数等于输入特征的通道数,从而使得输出特征的通道数等于输入特征的通道数;假设D
f
是输入特征的宽和高,D
k
是卷积核的高和宽,M是输入特征的通道数;卷积的计算量等于...

【专利技术属性】
技术研发人员:李燕萍潘磊杨泽宇
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1