【技术实现步骤摘要】
基于变分自编码网络双向化损失函数的语音转换方法
[0001]本专利技术涉及语音信号处理
,具体涉及一种基于变分自编码网络双向化损失函数的语音转换方法。
技术介绍
[0002]与指纹、虹膜等生物特征一样,人的说话特征也具有唯一性。语音转换(Voice Conversion)旨在将源说话人语音转换成具有目标说话人发音特性的语音,且转换后的语音内容与源说话人语音内容一致。语音转换技术具有广泛应用场景,例如个性化语音导航、智能语音终端的个性化语音播报、各种媒体语音的个性化转换、军事安全等领域的说话人语音伪装等。
[0003]语音转换已经成为智能语音领域的一个重要分支。目前的语音转换方法主要包括:基于高斯混合模型的方法、基于深度神经网络的方法等。这些方法只有在语音数据规模足够大的情况下才能取得较高质量的语音转换。因此它们的实用性并不高。此外,这些方法还存在下述不足:源说话人的发音特性信息与文本信息未被有效分离、训练数据集大、训练耗时长。
技术实现思路
[0004]本专利技术的目的是为了解决现有技术中的上述 ...
【技术保护点】
【技术特征摘要】
1.一种基于变分自编码网络双向化损失函数的语音转换方法,其特征在于,所述语音转换方法包括下列步骤:S1、将语音数据集划分为训练集和测试集;S2、从语音数据集的各语音样本提取梅尔刻度频谱图,进行归一化处理;S3、设计变分自编码网络,所述变分自编码网络包括文本编码器、说话人编码器和解码器,其中,文本编码器与说话人编码器并行连接后与解码器顺序连接;S4、构造重构损失函数、KL散度损失函数、同一说话人信息损失函数和不同说话人信息损失函数,从而得到总损失函数,并在总损失函数的指导下多次迭代训练变分自编码网络;S5、从测试集随机选出测试样本,将测试样本的梅尔刻度频谱特征输入到上述经过训练的变分自编码网络中,得到该测试样本进行语音转换后的重构语音。2.根据权利要求1所述的基于变分自编码网络双向化损失函数的语音转换方法,其特征在于,所述步骤S1过程如下:S1.1、选取语音数据集:选取CSTR VTCK、LibriSpeech和/或TED
‑
LIUM作为语音数据集;S1.2、划分语音数据集:随机选取若干个说话人的语音作为测试集,其余说话人的语音作为训练集。3.根据权利要求1所述的基于变分自编码网络双向化损失函数的语音转换方法,其特征在于,所述步骤S2过程如下:S2.1、进行端点检测及幅度归一化:对训练集的语音样本进行端点检测,去除静音,再对语音样本进行幅度归一化处理;S2.2、分帧:将语音样本切分成固定长度的短时语音帧;S2.3、加窗:将各帧语音与窗函数ω(n)相乘得到加窗后的语音帧,选取汉明窗作为窗函数:其中,L表示帧长,n表示采样频率点;S2.4、短时傅里叶变换:对所选语音样本进行短时傅里叶变换,得到幅度谱,短时傅里叶变换公式如下:其中,x(lH
‑
n)是语音样本,l是当前滤波器的序号,表示当前的时间段,k是当前频率的序号,表示当前正在处理的是第k个频率的信号,变量n的取值范围是:0≤n≤N
‑
1,ω(n)是窗函数,H为抽样间隔,N表示在N个等间隔频率进行抽样;S2.5、归一化频谱图:频率大小设置为统一刻度,再采用近似逆线性变换恢复线性刻度频谱图,将梅尔刻度频谱图转换为语音波形。4.根据权利要求1所述的基于变分自编码网络双向化损失函数的语音转换方法,其特征在于,所述步骤S3包括:
S3.1、构造说话人编码器,简称E
S
,过程如下:S3.1.1、构造扩大视野层,简称ConBank:将输入的语音波形进行卷积,此卷积层的卷积核大小、输入维度、输出维度、滑动步长分别为:3
×
3、128、128、1,记为Conv1,然后对卷积输出结果进行填充扩大,并进行拼接后输出;S3.1.2、将ConBank输出结果进行卷积,再通过ReLu函数,输出后再次进行卷积和通过ReLu函数,其中,卷积层的卷积核大小、输入维度、输出维度、滑动步长分别为:3
×
3、128、128、2,记为Conv2,ReLU函数的表达式为:其中x
in
为ReLu函数的输入;S3.1.3、将上一步骤的输出结果输入到平均池化层,简称AvgPool;S3.1.4、将上一步骤的输出结果输入到全连接层,记为Dense,然后再通过ReLU函数,得到E
S
的最终输出,即说话人发音特性信息,记为z
s
,其中,Dense的节点数为128;S3.2、构造文本编码器,简称E
c
,过程如下:S3.2.1、将输入的语音波形输入到ConBank;S3.2.2、将上一步骤的输出结果输入到Conv1,再通过ReLu函数,然后再输入归一化层,记为IN,将归一化层的输出输入到Conv2,然后通过ReLu函数,最后再次输入到IN,得到E
c
的最终输出,即文本信息,记为z
c
,其中,IN即是沿着通道方向独立对各个通道的频率进行归一化计算,其中每个通道的计算如下所示:其中a和b为归一化的权重参数,为非零常数,W为归一化层中各通道上的数据矩阵,E(W)是W的期望,Var(W)为W的方差,Y为归一化后的值;S3.3、构造解码器,简称D,过程如下:S3.3.1、将z
c
先输入到Conv1,再通过ReLu函数,输入到自适应归一化层,简称为AdaIN,同时,将z
s
输入到Dense和ReLu函数,后通过仿射层输入到AdaIN,其中,仿射层简称为Affine,表达式为:Affine(x
b
)=f(wx
b
+c)其中,x
b
是前层输入,w是权重参数,c是偏差矢量,w、c取值为常数,f(wx
b
+c)表示的是关于x
b
的非线性激活函数,取ReLu、Sigmoid或者Tanh函数;对于AdaIN,表达式为:其中,μ(z
c
)为文本信息频率的均值,σ(z
c
)为文本信息频率的方差,μ(z
s
)为说话人信息频率的均值,σ(z
s
)为说话人信息频率的方差;S3.3.2、将上一步骤AdaIN的输出,再次输入到Conv1和ReLu函数,通过上采样,最终再次输入AdaI...
【专利技术属性】
技术研发人员:姚喜佳,李艳雄,阮春尧,刘彬,张炫凯,孙建鑫,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。