一种语音转换模型的训练方法及装置制造方法及图纸

技术编号:31237314 阅读:33 留言:0更新日期:2021-12-08 10:22
本说明书实施例提供一种语音转换模型的训练方法及装置,方法包括:对样本音频进行特征提取,得到梅尔谱特征标签及基频序列;将梅尔谱特征标签输入编码器,得到第一内容向量;将第一内容向量输入瓶颈层,得到当前码本向量及第二内容向量;基于第一内容向量和当前码本向量,确定第一损失值;将第一内容向量输入感知机层,得到第一内容向量对应的各字符或空白符的发射概率;基于样本音频的转录文本标签及发射概率,确定第二损失值;将归一化后的基频序列、第二内容向量及样本音频的说话人标签,输入解码器,得到预测梅尔谱特征;基于梅尔谱特征标签及预测梅尔谱特征,确定第三损失值;以最小化上述损失值为目标,训练语音转换模型。型。型。

【技术实现步骤摘要】
一种语音转换模型的训练方法及装置


[0001]本说明书涉及语音处理
,尤其涉及一种语音转换模型的训练方法及装置。

技术介绍

[0002]语音转换(Voice Conversion,VC)是近些年来研究比较热门的课题,其为一种将一个人的语音在保留完整内容信息的基础下,转换为另外一个人的音色的过程。语音转换属于语音合成的一个
,由于语音转换侧重于语音中身份信息的转换,因此它是语音信号处理中具有挑战性的研究问题之一。
[0003]目前的语音转换技术依赖于平行语料,即通过不同人录制的相同内容信息的语音,但是在实际的应用场景中,用户很难去录制特定内容的语音,因而平行语料在现实环境中的获取的难度较大,进而影响后续的语音转换效果。
[0004]那么,如何提供一种可以得到不依赖平行语料且转换效果较好的语音转换方法成为亟待解决的问题。

技术实现思路

[0005]本说明书一个或多个实施例提供了一种语音转换模型的训练方法及装置,以实现不依赖平行语料训练得到语音转换模型,且通过该多任务训练所得的语音转换模型,得到转换效果较好本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音转换模型的训练方法,所述语音转换模型包括编码器、瓶颈层以及解码器,所述方法包括:对样本音频进行特征提取,得到梅尔谱特征标签以及基频序列;将所述梅尔谱特征标签输入所述编码器,得到第一内容向量;将所述第一内容向量输入所述瓶颈层,得到当前码本向量以及第二内容向量,其中,所述瓶颈层用于去除输入向量中的说话人信息,所述当前码本向量为与所述第一内容向量距离最近的向量;基于所述第一内容向量和所述当前码本向量,确定第一损失值;将所述第一内容向量输入感知机层,得到所述第一内容向量对应的各字符或空白符的发射概率;基于所述样本音频对应的转录文本标签以及所述发射概率,确定第二损失值;将归一化后的所述基频序列、所述第二内容向量以及所述样本音频对应的说话人标签,输入所述解码器,得到预测梅尔谱特征;基于所述梅尔谱特征标签以及所述预测梅尔谱特征,确定第三损失值;以最小化所述第一损失值、所述第二损失值以及所述第三损失值为目标,训练所述编码器、瓶颈层以及解码器。2.根据权利要求1所述的方法,其中,所述对所获得的样本音频进行特征提取,得到梅尔谱特征标签以及基频序列,包括:对所述样本音频进行预加重,得到对应的加重样本音频;对所述加重样本音频进行分帧,得到对应的子音频;针对每一子音频进行加窗;对每一加窗后的子音频进行快速傅里叶变换,得到每一加窗后的子音频的频谱,并基于每一加窗后的子音频的频谱,确定每一加窗后的子音频的能量谱;利用梅尔滤波器以及每一加窗后的子音频的能量谱,得到每一加窗后的子音频对应的梅尔谱特征,以得到所述样本音频对应的梅尔谱特征;基于每一加窗后的子音频,确定所述样本音频对应的基频序列。3.根据权利要求1所述的方法,其中,所述编码器包括卷积神经网络层以及全局自注意力神经网络层;所述将所述梅尔谱特征标签输入所述编码器,得到第一内容向量,包括:将所述梅尔谱特征标签输入所述卷积神经网络层,得到中间特征序列;将所述中间特征序列输入所述全局自注意力神经网络层,得到所述第一内容向量。4.根据权利要求3所述的方法,其中,所述全局自注意力神经网络层包括采用多头自注意力的自注意力子层以及前馈神经网络子层;所述将所述中间特征序列输入所述全局自注意力神经网络层,得到所述第一内容向量,包括:将所述中间特征序列输入所述自注意力子层,以使所述自注意力子层,针对其每头自注意力,对所述中间特征序列进行第一线性映射,得到每头自注意力对应的问询矩阵、键值矩阵以及值矩阵;对每头自注意力对应的问询矩阵、键值矩阵以及值矩阵进行缩放点积注意力操作,得到每头自注意力对应的中间向量;对所有头自注意力对应的中间向量的第一
拼接向量进行第二线性映射操作,得到对应的输出结果;将所述输出结果输入所述前馈神经网络子层,以使所述前馈神经网络子层,对所述输出结果进行第三线性映射操作,得到第一线性映射结果;将所述第一线性映射结果输入修正线性单元,得到中间修正结果;对所述中间修正结果进行第四线性映射操作,得到所述第一内容向量。5.根据权利要求1所述的方法,其中,所述瓶颈层包括:包含第一数量个待训练的多维码本向量的码本向量层,以及时间抖动模块;所述将所述第一内容向量输入所述瓶颈层,得到当前码本向量以及第二内容向量,包括:将所述第一内容向量输入所述码本向量层,计算所述第一内容向量与每一码本向量之间的距离;基于计算所得的距离,确定出与所述第一内容向量距离最近的...

【专利技术属性】
技术研发人员:张鹏远陈子毅颜永红
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1