一种基于声码器的语音转换方法、存储介质及电子设备技术

技术编号：37576970 阅读：15 留言：0更新日期：2023-05-15 07:53

本申请涉及深度学习和自然语言处理技术领域，公开了一种基于声码器的语音转换方法、存储介质及电子设备，包括：构建any

全部详细技术资料下载

【技术实现步骤摘要】
一种基于声码器的语音转换方法、存储介质及电子设备

[0001]本申请涉及深度学习和自然语言处理
，尤其是一种基于声码器的语音转换方法、存储介质及电子设备。

技术介绍

[0002]随着深度学习在各个领域的广泛应用，在语音方向上的很多任务也得到了很大的发展，比如语音合成和语音转换。
[0003]语音转换是将一个人说话的语音，保持其内容不变的情况下，转换成另一个人的音色。语音转换的类型根据说话人在不在训练集中，大致可以分为any
‑
to
‑
one，many
‑
to
‑
many，any
‑
to
‑
many，any
‑
to
‑
any。any是指输入可以是任意的一个人，one是指某一个特定的人，many是指有限的一些人。any
‑
to
‑
one的模型是指可以将任意的一个说话人转成某一个特定的人。所以如果要是像更换成其他的说话人，是不能够做到的。many
‑
to
‑
many一般是指在训练数据中的一些人可以进行互相的转换，但是训练集之外的人，则不能够进行转换。any
‑
to
‑
many是对输入的语音说话人没有限制，但是目标说话人只能是训练集中出现过的。any
‑
to
‑
any是这些中最难的一个，可以实现任意人的音色转成任意的一个人。语音...

【技术保护点】

【技术特征摘要】
1.一种基于声码器的语音转换方法，其特征在于，包括：获取原始语音、目标说话人语音和语音数据集；构建any
‑
to
‑
one语音转换模型，并对any
‑
to
‑
one语音转换模型进行训练；将原始语音输入到any
‑
to
‑
one语音转换模型中转换成目标中间人语音；将语音数据集中的语音均输入到any
‑
to
‑
one语音转换模型中转换成中间人语音，以构建平行数据集；构建说话人编码结构，并利用说话人编码结构提取目标说话人的向量，其中，向量包括均值和方差；构建特征提取器，并将目标中间人语音的频谱输入到特征提取器中，以得到特征Z_source；将特征Z_source利用目标说话人的向量转换成特征Z_target；将特征Z_target输入到声码器中得到转换的目标语音。2.根据权利要求1所述的基于声码器的语音转换方法，其特征在于，所述any
‑
to
‑
one语音转换模型包括内容编码器、声学模型和声码器，其中，所述内容编码器用于获取输入语音说话的内容，并去除掉说话人的信息，声学模型用于提取声学特征，声码器用于将内容编码器和声学模型的输出转换成指定中间人的语音。3.根据权利要求2所述的基于声码器的语音转换方法，其特征在于，将原始语音输入到any
‑
to
‑
one语音转换模型中转换成目标中间人语音，包括以下步骤：将原始语音输入到内容编码器对原始语音进行内容编码，以得去除原始语音中的原始说话人信息；将原始语音经过声学模型，以得到原始语音的声学特征；将上述原始语音的声学特征输入到声码器，以得到目标中间人语音。4.根据权利要求2所述的基于声码器的语音转换方法，其特征在于，将语音数据集中的语音均输入到any
‑
to
‑

【专利技术属性】
技术研发人员：盛乐园，
申请(专利权)人：杭州小影创新科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人