一种端到端语音转换模型及其训练方法、推理方法技术

技术编号:38077835 阅读:11 留言:0更新日期:2023-07-06 08:45
本申请提供了一种端到端语音转换模型及其训练方法、推理方法,该模型以条件变分编码器为基础,训练时将声学模型与声码器共同训练,避免训练与推理的不匹配。使用大规模预训练Hubert模型来提取内容信息表征,既可初步剥离内容表征中的说话人信息,也丰富了内容表征中的声韵学信息。通过使用梯度反转方法,进一步剥离内容信息表征中的说话人信息,从而避免音色泄露。通过码本量化方法,简化了内容表征的复杂度,并提升了音色剥离能力。此外,通过采用基于KL散度的模型蒸馏方法,将计算复杂的内容提取器蒸馏至计算更加高效的学生网络中,极大减小了模型的计算复杂度。大减小了模型的计算复杂度。大减小了模型的计算复杂度。

【技术实现步骤摘要】
一种端到端语音转换模型及其训练方法、推理方法


[0001]本专利技术涉及语音转换技术,尤其涉及一种端到端语音转换模型及其训练方法、推理方法。

技术介绍

[0002]语音转换是在不改变语音内容的情况下,将源说话人的音色转换成目标说话人的音色。经典的语音转换应用包括说话人转换、影视作品配音、说话辅助系统等。
[0003]目前,业界的传统语音转换方案是将源说话人的说话内容表征与目标说话人的音色表征结合,随后输入声码器重建出只包含源说话人内容但音色和目标说话人一致的音频。具体地,首先利用内容提取器提取源说话人的内容信息表征,为了防止音色泄露,内容信息表征应该不合话者的音色信息,因此内容提取器一般使用识别模型的音素后验概率(PPG);随后使用音色提取器提取目标说话人的音色信息,音色提取器一般是预训练声纹模型,它能够将话者的音频提取成一个高维Embedding表征;接着,使用声学模型将获得的内容信息和音色信息生成Fbank特征,最后利用声码器将Fbank特征直接生成语音波形。
[0004]业界传统的语音转换模型结构为多段式,也就是声学模型生成Fbank后接声码器生成语音波形,并且声学模型的训练与声码器的训练相互独立,这容易造成训练与推理的不匹配。此外,传统语音转换利用音素后验概率(PPG)作为内容信息表征,该表征有三个缺陷:其一,PPG是一种音素中间表征,缺少细粒度的韵律、情感信息,因此语音转换后的自然度不佳。其二,PPG的提取一般基于识别模型,因此提取过程计算量大、实时率低。其三,PPG中不仅包含说话人内容表征,还包含了说话人音色表征,因此容易造成音色泄露、转换音频相似度低。

技术实现思路

[0005]本专利技术的目的在于提供一种端到端语音转换模型及其训练方法、推理方法,以提高训练与推理的匹配程度,提升内容表征的细粒度表现力。
[0006]以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
[0007]根据本专利技术的第一方面,提供了一种端到端语音转换模型的训练方法,包括:
[0008]训练Teacher支路:
[0009]将源说话人音频x输入Hubert模型提取出内容表征O
hub
,生成先验分布后重参数采样得到内容表征z
pri
,输入Normalizing Flow模型;
[0010]将源说话人音频x输入声纹模型Spkr_Emb提取出音色表征g
src
,输入Normalizing FloW模型;
[0011]Normalizing Flow模型输出包含音色的内容表征z

pri

[0012]声码器根据包含音色的内容表征z

pri
重构出音频波形,输出处理后的音频;
[0013]根据Teacher支路的损失函数计算损失值,反向传播更新Hubert模型、Normalizing Flow模型和声码器中的参数;
[0014]训练Student支路:
[0015]提取将源说话人音频的频谱,输入后验编码器,使用后验编码器提取源说话人的后验分布,重参数采样后得到包含音色的内容表征z
post

[0016]声码器根据包含音色的内容表征z
post
重构出音频波形,输出处理后的音频;
[0017]根据Student支路的损失函数反向传播,更新后验编码器和声码器中的参数。
[0018]在一实施例中,首先训练Teacher支路,Teacher支路训练完成后固定该支路,利用Teacher支路输出的包含音色的内容表征z

pri
与Student支路输出的包含音色的内容表征z
post
之间的KL散度L
fwd
作为Student支路的损失函数测度之一,指导Student支路的训练。
[0019]在一实施例中,Teacher支路的训练过程还包括:
[0020]将O
hub
输入说话人识别分类器Spkr_Rec中,输出源说话人音色表征Spkr_Rec(O
hub
),计算Spkr_Rec(O
hub
)与声纹模型提取的源说话人的音色表征g
src
之间的均方误差作为Teacher支路的损失函数测度之一:
[0021]L
spk
r
_adv
=MSE(Spkr_Rec(O
hub
),g
src
)
[0022]其中Spkr_Rec表示说话人识别分类器,MSE表示均方误差;
[0023]在反向传播时,经过说话人识别分类器后的梯度乘以

1并更新Hubert模型的参数。
[0024]在一实施例中,Student支路的训练过程还包括:
[0025]将后验编码器的输出z
post
输入Normalizing Flow进行音色剥离,得到内容表征z

post

[0026]计算z

post
与Teacher支路训练过程中的内容表征z
pri
之间的KL散度L
bwd
作为Student支路的损失函数测度之一。
[0027]在一实施例中,Student支路的损失函数为:
[0028]L
Student
=L
fwd
+L
bwd

[0029]在一实施例中,训练Teacher支路时,在将源说话人音频输入Hubert模型提取出内容表征O
hub
之后,还包括对内容表征O
hub
进行码本量化,具体包括:
[0030]码书E∈R
N
×
h
中有N条维度为h的嵌入码:E=[e1,e2,

,e
N
],从码书中挑选一条嵌入码e
pri
来代表O
hub

[0031]dist=linear(O
hub
),dist∈R
N
[0032]其中,linear为线性层,其输出dist表示挑选码书内各个嵌入码的概率分布律;
[0033]随后利用gumbel_softmax从分布律dist采样出嵌入码索引idx:
[0034]idx=gumbel_sortmax(dist)
[0035]利用索引从码书中选出嵌入码e
pri
作为简化后的O
hub
的表征:...

【技术保护点】

【技术特征摘要】
1.一种端到端语音转换模型的训练方法,其特征在于,包括:训练Teacher支路:将源说话人音频x输入Hubert模型提取出内容表征O
hub
,生成先验分布后重参数采样得到内容表征z
pri
,输入Normalizing Flow模型;将源说话人音频x输入声纹模型Spkr_Emb提取出音色表征g
src
,输入Normalizing FloW模型;Normalizing FloW模型输出包含音色的内容表征z

pri
;声码器根据包含音色的内容表征z

pri
重构出音频波形,输出处理后的音频;根据Teacher支路的损失函数计算损失值,反向传播更新Hubert模型、Normalizing FloW模型和声码器中的参数;训练Student支路:提取将源说话人音频的频谱,输入后验编码器,使用后验编码器提取源说话人的后验分布,重参数采样后得到包含音色的内容表征z
post
;声码器根据包含音色的内容表征z
post
重构出音频波形,输出处理后的音频;根据Student支路的损失函数反向传播,更新后验编码器和声码器中的参数。2.根据权利要求1所述的端到端语音转换模型的训练方法,其特征在于,首先训练Teacher支路,Teacher支路训练完成后固定该支路,利用Teacher支路输出的包含音色的内容表征z

pri
与Student支路输出的包含音色的内容表征z
post
之间的KL散度L
fwd
作为Student支路的损失函数测度之一,指导Student支路的训练。3.根据权利要求2所述的端到端语音转换模型的训练方法,其特征在于,Teacher支路的训练过程还包括:将O
hub
输入说话人识别分类器Spkr_Rec中,输出源说话人音色表征Spkr_Rec(O
hub
),计算Spkr_Rec(O
hub
)与声纹模型提取的源说话人的音色表征g
src
之间的均方误差作为Teacher支路的损失函数测度之一:L
spkr_adv
=MSE(Spkr_Rec(O
hub
),g
src
)其中Spkr_Rec表示说话人识别分类器,MSE表示均方误差;在反向传播时,经过说话人识别分类器后的梯度乘以一1并更新Hubert模型的参数。4.根据权利要求3所述的端到端语音转换模型的训练方法,其特征在于,Student支路的训练过程还包括:将后验编码器的输出z
post
输入Normalizing Flow进行音色剥离,得到内容表征z

post
;计算z

post
与Teacher支路训练过程中的内容表征z
pri
之间的KL散度L
bwd
作为Student支路的损失函数测度之一。5.根据权利要求4所述的端到端语音转换模型的训练方法,其特征在于,Student支路的损失函数为:L
Student
=L
fwd
+L
bwd
。6.根据权利要求3所述的端到端语音转换模型的训练方法,其特征在于,训练Teacher支路时,在将源说话人音频输入Hubert模型提取出内容表征O
hub
之后,还包括对内容表征O
hub
进行码本量化,具体包括:码书E∈R
N
×
h

【专利技术属性】
技术研发人员:王飞王欢良吴天昕
申请(专利权)人:苏州奇梦者科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1