一种基于声码器的语音转换方法、存储介质及电子设备技术

技术编号:37576970 阅读:15 留言:0更新日期:2023-05-15 07:53
本申请涉及深度学习和自然语言处理技术领域,公开了一种基于声码器的语音转换方法、存储介质及电子设备,包括:构建any

【技术实现步骤摘要】
一种基于声码器的语音转换方法、存储介质及电子设备


[0001]本申请涉及深度学习和自然语言处理
,尤其是一种基于声码器的语音转换方法、存储介质及电子设备。

技术介绍

[0002]随着深度学习在各个领域的广泛应用,在语音方向上的很多任务也得到了很大的发展,比如语音合成和语音转换。
[0003]语音转换是将一个人说话的语音,保持其内容不变的情况下,转换成另一个人的音色。语音转换的类型根据说话人在不在训练集中,大致可以分为any

to

one,many

to

many,any

to

many,any

to

any。any是指输入可以是任意的一个人,one是指某一个特定的人,many是指有限的一些人。any

to

one的模型是指可以将任意的一个说话人转成某一个特定的人。所以如果要是像更换成其他的说话人,是不能够做到的。many

to

many一般是指在训练数据中的一些人可以进行互相的转换,但是训练集之外的人,则不能够进行转换。any

to

many是对输入的语音说话人没有限制,但是目标说话人只能是训练集中出现过的。any

to

any是这些中最难的一个,可以实现任意人的音色转成任意的一个人。语音转换的模型一般的结构就是1.内容编码器:对输入语音进行一个编码,获取说话的内容,去除掉说话人的信息。2.说话人编码器:同样对语音进行编码,但获取的是说话人的信息,去除掉的是说话的内容信息。3.解码器:将内容编码器和说话人编码器的输出进行解码输出一个特定的声学特征信息或者是语音波形。
[0004]语音克隆是根据目标说话人的一句或者少量的几句话,在一个训练完成的语音合成模型之上对目标说话人进行微调,学习到目标说话人的音色特征,从而实现可以让目标说话人说任意的内容。语音克隆和语音转换的相同点都是需要目标说话人的一句或者少量的几句话作为参考,学习目标说话人的音色。区别是语音克隆的输入是任意的文本,语音转换的输入是源说话人的语音。
[0005]现有的语音转换技术线路是:1.现有的声码器只能够将一个人的声学特征转成同一个人的语音波形,在转换的过程中保持了说话人和说话的内容不变。2.目前的语音转换系统中需要对输入语音进行编码去除说话人信息,同时要对目标音色的语音进行编码,提取说话人信息。但是说话人信息并没有明确的特征可以进行去除和提取,提取的只是一种隐变量的向量。对训练集之外的说话人提取的效果明显较差。
[0006]现有的语音克隆技术线路是:1.训练一个较好的语音合成模型。2.利用训练好的语音合成模型对目标说话人进行再次的训练微调,学习目标说话人的音色。在实际的产品应用中再次训练需要让用户进行等待,还对部署的设备有较高的要求。

技术实现思路

[0007]本申请的目的在于克服现有技术不足之处,提供一种基于声码器的语音转换方法、存储介质及电子设备。
[0008]第一方面,提供了一种基于声码器的语音转换方法,包括:
[0009]获取原始语音、目标说话人语音和语音数据集;
[0010]构建any

to

one语音转换模型,并对any

to

one语音转换模型进行训练;
[0011]将原始语音输入到any

to

one语音转换模型中转换成目标中间人语音;
[0012]将语音数据集中的语音均输入到any

to

one语音转换模型中转换成中间人语音,以构建平行数据集;
[0013]构建说话人编码结构,并利用说话人编码结构提取目标说话人的向量,其中,向量包括均值和方差;
[0014]构建特征提取器,并将目标中间人语音的频谱输入到特征提取器中,以得到特征Z_source;
[0015]将特征Z_source利用目标说话人的向量转换成特征Z_target;
[0016]将特征Z_target输入到声码器中得到转换的目标语音。
[0017]进一步的,所述any

to

one语音转换模型包括内容编码器、声学模型和声码器,其中,所述内容编码器用于获取输入语音说话的内容,并去除掉说话人的信息,声学模型用于提取声学特征,声码器用于将内容编码器和声学模型的输出转换成指定中间人的语音。
[0018]进一步的,将原始语音输入到any

to

one语音转换模型中转换成目标中间人语音,包括以下步骤:
[0019]将原始语音输入到内容编码器对原始语音进行内容编码,以得去除原始语音中的原始说话人信息;
[0020]将原始语音经过声学模型,以得到原始语音的声学特征;
[0021]将上述原始语音的声学特征输入到声码器,以得到目标中间人语音。
[0022]进一步的,将语音数据集中的语音均输入到any

to

one语音转换模型中转换成中间人语音,包括以下步骤:
[0023]将语音数据集中的语音逐条输入到内容编码器对语音进行内容编码;
[0024]将语音数据集中的语音逐条经过声学模型,以得到语音的声学特征;
[0025]将上述语音数据集中语音的声学特征逐个输入到声码器,以得到语音数据集中的语音所对应的中间人语音。
[0026]进一步的,所述语音数据集包含有多条不同说话人的语音数据。
[0027]进一步的,所述说话人编码结构包括conformer网络模型和ECAPA

TDNN模型,其中,conformer网络模型用于提取说话人特征,ECAPA

TDNN模型用于说话人识别。
[0028]进一步的,所述特征提取器包括卷积模块、WaveNet模块和线性放射变换模块。
[0029]进一步的,将特征Z_source利用目标说话人的向量转换成特征Z_target,包括:
[0030]目标中间人语音记作source,与目标中间人语音平行的语音计作target,将(source,target)成对输入到声码器结构中,经过特征提取的网络后,将source和target分开处理,然后再次经过共有的网络,在训练的过程中,分开处理之后得到的target特征用于指导source特征的学习,其中,Z_target=InstanceNorm(Z_source)*Std+Mean,Std代表方差,Mean代表均值。
[0031]第二方面,提供了一种计算机可读存储介质,所述计算机可读介质存储用于设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于声码器的语音转换方法,其特征在于,包括:获取原始语音、目标说话人语音和语音数据集;构建any

to

one语音转换模型,并对any

to

one语音转换模型进行训练;将原始语音输入到any

to

one语音转换模型中转换成目标中间人语音;将语音数据集中的语音均输入到any

to

one语音转换模型中转换成中间人语音,以构建平行数据集;构建说话人编码结构,并利用说话人编码结构提取目标说话人的向量,其中,向量包括均值和方差;构建特征提取器,并将目标中间人语音的频谱输入到特征提取器中,以得到特征Z_source;将特征Z_source利用目标说话人的向量转换成特征Z_target;将特征Z_target输入到声码器中得到转换的目标语音。2.根据权利要求1所述的基于声码器的语音转换方法,其特征在于,所述any

to

one语音转换模型包括内容编码器、声学模型和声码器,其中,所述内容编码器用于获取输入语音说话的内容,并去除掉说话人的信息,声学模型用于提取声学特征,声码器用于将内容编码器和声学模型的输出转换成指定中间人的语音。3.根据权利要求2所述的基于声码器的语音转换方法,其特征在于,将原始语音输入到any

to

one语音转换模型中转换成目标中间人语音,包括以下步骤:将原始语音输入到内容编码器对原始语音进行内容编码,以得去除原始语音中的原始说话人信息;将原始语音经过声学模型,以得到原始语音的声学特征;将上述原始语音的声学特征输入到声码器,以得到目标中间人语音。4.根据权利要求2所述的基于声码器的语音转换方法,其特征在于,将语音数据集中的语音均输入到any

to

【专利技术属性】
技术研发人员:盛乐园
申请(专利权)人:杭州小影创新科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1