融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法技术

技术编号：38881509 阅读：18 留言：0更新日期：2023-09-22 14:11

本发明专利技术公开一种融合增强编码模块和LGNet网络的编

全部详细技术资料下载

【技术实现步骤摘要】
融合增强编码模块和LGNet网络的编
‑
解码器结构的跨语种语音转换方法

[0001]本专利技术涉及跨语种语音转换
，具体地说，是一种融合增强编码模块和LGNet网络的编
‑
解码器结构跨语种语音转换方法。

技术介绍

[0002]语音转换是语音信号处理领域中重要的研究分支，该技术的研究有着重要的理论价值和应用前景。语音转换是一种将源语句中说话人的身份特征转换为目标语句中说话人的身份特征，同时保证源语句的语义特征不变的技术。传统的语音转换专注于解决同语种语音转换问题，即要求源和目标语句的语种相同。跨语种语音转换打破了相同语种的限制，源和目标语句的语种和文本均不相同。
[0003]得益于深度学习的发展，跨语种语音转换取得了突破性进展。Mohammadi等人在2018年提出了基于因式分层变分自编码器模型的跨语种语音转换方法(Investigation of using disentangled and interpretable representations for one
‑
shot cross
‑
lingual voice conversion.Mohammadi S H,Kim T.arXiv preprint arXiv:1808.05294,2018.)，该方法利用FHVAE模型对语音中的多尺度信息建模，在实现跨语种语音转换时，先从不同语种语音的声学特征中分解出语义内容表征和说话人信息表征，然后将两者融合后得到转换后的声学特征，从...

【技术保护点】

【技术特征摘要】
1.一种融合增强编码模块和LGNet网络的编
‑
解码器结构的跨语种语音转换方法，其特征在于，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：步骤S1：获取大量的训练语料，训练语料由不同语种的多名说话人的语句组成；步骤S2：将获取的训练语料进行预处理和特征提取；从每句训练语料的对数梅尔频谱特征中随机选取128帧并通过拼接得到对数梅尔频谱特征片段，表征为声学特征X；步骤S3：将所述声学特征X输入到转换模型中进行模型训练，所述转换模型包括编码器E、LGNet网络和解码器D；所述编码器E对输入的声学特征X进行解纠缠，从中获得说话人信息表征S和内容表征C；所述编码器E和解码器D之间采用U型连接，将说话人信息表征S从编码器E传递到解码器D；所述LGNet网络对编码器E提取的内容表征C进一步优化得到LG(C)，使得内容表征中的信息充分表达；所述解码器D将获取的说话人信息表征S和优化后的内容表征LG(C)进行重构，得到重构后的对数梅尔频谱特征D(LG(C),S)，表征为声学特征X
′
；步骤S4：对转换模型进行训练的过程中，使所述转换模型的重构损失函数尽量小，设置所述转换模型的超参数，使得目标函数最小化，直至设置的迭代次数，从而得到训练好的转换模型；所述转换阶段包括以下步骤：步骤S5：选取不同语种的语句作为待转换语料，从待转换语料中分别选择不同语种的源语句和目标语句，分别提取源语句的对数梅尔频谱特征和目标语句的对数梅尔频谱特征，分别表征为声学特征X1和X2；步骤S6：将所述声学特征X1和X2输入到训练好的转换模型中，重构出转换语句的对数梅尔频谱特征，表征为声学特征X1→2；步骤S7：采用Griffin
‑
Lim声码器，将获得的转换语句的声学特征X1→2转换为语音波形进行输出，从而获得跨语种语音转换的合成语音。2.根据权利要求1所述的融合增强编码模块和LGNet网络的编
‑
解码器结构的跨语种语音转换方法，其特征在于，步骤S2所述的将获取的训练语料进行预处理和特征提取，具体步骤为：训练语料的采样率设置成24kHz，快速傅里叶变换的点数设置成2048，窗长设置为1200，窗移动长度设置为300。3.根据权利要求1所述的融合增强编码模块和LGNet网络的编
‑
解码器结构的跨语种语音转换方法，其特征在于，步骤S3中，所述转换模型中的编码器E由2个一维卷积层、6个增强编码模块、6个实例归一化层和1个激活指导函数层组成，所述增强编码模块由1个递归门控卷积层、1个批归一化层、1个LeakyReLU激活函数和1个一维卷积层组成，所述增强编码模块和实例归一化层交替放置。4.根据权利要求3所述的融合增强编码模块和LGNet网络的编
‑
解码器结构的跨语种语音转换方法，其特征在于，所述增强编码模块中的递归门控卷积将自注意中的二阶相互作用扩展到任意阶，编码器E将声学特征X经过编码器E中的第一个一维卷积层后得到的特征向量作为增强编码模块中递归门控卷积的输入，输入到递归门控卷积中的输入线性投影层φ
in
得到一组投影特征p0和所述的输入线性投影层的公式为：
其中，H和W表示特征向量Z的高和宽；C表示通道数；n表示高阶交互的阶数；C0,
…
,C
n
‑1表示不同投影特征对应的通道数；得到投影特征后，将其依次输入到递归门控卷积中进行递归运算，运算公式为：p
k+1
＝f
k
(q
k
)vg
k
(p
k
)/α，k＝0,1,
…
,n
‑
1其中，α表示缩放系数；f
k
(
·
)表示深度卷积计算；g
k
(
·
)表示维度映射函数，
⊙
表示点积运算；将最后一步运算操作的输出p
n
馈送到输出线性投影层φ
out
后得到递归门控卷积的最终结果。5.根据权利要求1所述的融合增强编码模块和LGNet网络的编
‑
解码器结构的跨语种语音转换方法，其特征在于，步骤S3中，所述转换模型中的LGNet网络由6个LGBlock卷积模块组成，每个LGBlock卷积模块由1个一维深度卷积层、1个层归一化层、1个GELU激活函数、1个正则化层和2个全连接层组成；每个LGBlock卷积模块之间使用残差连接相连。6.根据权利要求5所述的融合增强编码模块和LGNet网络的编
‑
解码器结构的跨语种语音转换方法，其特征在于，一维深度卷积的每个卷积核通道数都是等于1，每个卷积核只负责输入特征的一个通道，因此卷积核的个数等于输入特征的通道数，从而使得输出特征的通道数等于输入特征的通道数；假设D
f
是输入特征的宽和高，D
k
是卷积核的高和宽，M是输入特征的通道数；卷积的计算量等于...

【专利技术属性】
技术研发人员：李燕萍，潘磊，杨泽宇，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人