System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语音转换的音色生成方法技术_技高网

一种基于语音转换的音色生成方法技术

技术编号:41705975 阅读:20 留言:0更新日期:2024-06-19 12:37
一种基于语音转换的音色生成方法,包括:使用基于变分自编码器VAE的说话人编码器处理输入的原始声学特征,以提取说话人嵌入向量,并将说话人嵌入向量映射到一个连续的潜在空间中;基于说话人嵌入向量,使用基于HuBERT的软语音单元作为内容编码器,通过对训练数据进行推理和重新聚类获取新的聚类序列,并对聚类序列进行预测,以生成与语言内容相关的声学特征表示;利用说话人特征的表示,通过对抗训练,利用变分自编码器中的经验后验分布和阶乘后验分布,训练判别器以降低其区分生成的数据点和重采样的数据点的能力;基于经过对抗训练调整的说话人特征表示,使用解码器生成目标音色的声学特征信息。

【技术实现步骤摘要】

本专利技术涉及语音转换技术,特别是涉及一种基于语音转换的音色生成方法


技术介绍

1、在当前的
,语音转换(voice conversion,vc)技术已经在语音助手、智能导航系统、虚拟角色等众多产品中找到了广泛应用。然而,尽管技术已取得显著进展,增加目标说话人声音的多样性仍然是一个极具挑战性的问题,于是越来越多的工作关注与如何进行音色生成领域。目前,增加声音多样性的常规方法依赖于使用大量说话人语料库来训练多说话人语音转换模型。这种方法能够复制语料库中包含的说话人的声音特征,但它要求为每个说话者提供大量的语音数据,这不仅成本高昂,而且在增强声音多样性方面的效果有限。为了克服这些限制,一些研究尝试利用说话人识别模型来开发少样本甚至零样本的语音转换模型,它们能够仅通过几句话就复现目标说话者的声音。然而,这些方法仍依赖于已有说话者的语音数据。与此相对,音色生成旨在创建不存在说话者的声音,从而解决收集已存在说话者语音数据的难题。音色生成的语音转换技术框架如图1所示。

2、目前音色生成的语音转换方案主要存在以下两个问题:(1)音色生成需要一个丰富且稳定的中间表征空间,而目前大多数方案依赖于高斯混合模型(gmm)进行建模。gmm方法的简单性在处理嵌入空间中复杂的决策边界时显得力不从心,这可能会导致属性控制性的降低。(2)与音色生成相关的任务还需解耦内容和说话人信息,保持原始语音的语言内容完整无缺且不被歪曲,在实际操作中这仍然是一项巨大的挑战。

3、当前,语音转换领域的研究主要集中于探索如何有效利用少量样本或零样本进行语音转换,而关于音色生成的研究则相对较少。本专利技术旨在介绍现有的基于少样本和零样本的语音转换技术,以及基于语音转换的音色生成的技术方案。

4、在少样本和零样本的语音转换技术方面,早期方法通常依赖于训练一个专用的说话人识别模块,以提取说话人的特征表征,进而实现对说话人特征的泛化和转换。例如,一个基于自编码器结构的语音转换模型,该模型特别设计了一个精细的瓶颈结构,并配合预训练的说话人识别模型以优化性能。另一研究通过引入全局风格令牌以及辅助监督,尝试进一步优化说话人特征表征,以更好地适应语音转换的需求。尽管如此,这些技术仍面临转换后的语音无法充分反映目标说话人特征的问题,部分原因在于说话人嵌入主要为说话人验证模型优化,而非语音转换模型,从而影响了转换性能的最优化。

5、为克服上述依赖说话人识别模块的局限性,一些研究开始尝试通过自监督学习方法进行语音转换。例如,利用k邻近算法提取源语音和参考语音的自监督表示,通过将参考语音中的最近邻帧替换源语音表示中的相应帧来实现转换,最后通过预训练的声码器合成最终音频。

6、然而,这些方法通常需要目标说话人的一定量语料数据,这在实际应用中构成了一定限制。为解决这一挑战,有人通过高斯混合模型对说话人特征进行建模,从而实现对未知说话人声音的生成。这种方法通过从一个综合考虑说话人属性的gmm中提取新的嵌入值,实现声音的生成。尽管这种简化的建模方法在嵌入空间中面临复杂的决策边界问题,有时会导致在特定属性控制(如儿童性别)方面的性能下降,但它开辟了探索未知说话人声音生成的新途径。

7、现有方案中存在如下缺点:

8、1)依赖高斯混合模型(gmm)的方法因其过于简化的处理方式,在处理边界问题的时候,往往无法避免音质失真。这种方法在模拟复杂的声音特性方面的能力受限,尤其是在需要精细调控的应用场景中。

9、2)目前的技术在音色生成的可控性方面仍有待加强,特别是在用户需要精确调整音色属性以满足特定应用需求时,现有方法的效果不尽人意。

10、3)当前的技术方案在尝试提高音色生成质量和多样性的过程中,引入了更为复杂的音色表征机制,使得带来了模型训练和实现的复杂性,特别是在生成音色表征的转换过程中,需要进行复杂的解耦和重建操作,对技术的可行性和实用性提出了更高的要求。

11、需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本专利技术的主要目的在于克服上述
技术介绍
的缺陷,提供一种基于语音转换的音色生成方法。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种基于语音转换的音色生成方法,包括如下步骤:

4、s1、使用基于变分自编码器vae的说话人编码器处理输入的原始声学特征,以提取说话人嵌入向量,并将说话人嵌入向量映射到一个连续的潜在空间中;

5、s2、基于所述说话人嵌入向量,使用基于hubert的软语音单元作为内容编码器,通过对训练数据进行推理和重新聚类获取新的聚类序列,并对所述聚类序列进行预测,以生成与语言内容相关的声学特征表示;

6、s3、利用说话人嵌入向量和与语言内容相关的声学特征表示,通过对抗训练,利用所述变分自编码器中的经验后验分布和阶乘后验分布,训练判别器以降低其区分生成的数据点和重采样的数据点的能力;其中,通过对抗训练调整变分自编码器的参数,以提高模型对说话人特征和内容特征的独立建模能力,并增强特征表示的解耦性;

7、s4、将经过对抗训练调整的说话人嵌入向量和与语言内容相关的声学特征表示进行拼接,使用解码器生成目标音色的声学特征信息,从而合成最终的目标音频。

8、进一步地:

9、步骤s1中,所述说话人编码器采用多层resnet block进行逐层降采样,以提取不同分辨率的声学信息。

10、步骤s1中,通过集成注意力机制的vae结构,实现对说话人嵌入向量的编码和解码。

11、步骤s2中,通过前馈神经网络执行维度压缩,对hubert模型进行微调,以提升声学特征的解耦能力,从而优化与语言内容相关的声学特征表示。

12、步骤s2中,通过瓶颈压缩技术减少说话人信息量,提高与语言内容相关的声学特征表示的解耦性和音色相似度。

13、步骤s3中,使用经验后验分布q(z)来指导潜在变量z的多元分布,使得根据输入x变化的潜在状态z能够反映输入数据的统计特性。

14、步骤s3中,执行重构操作以从潜在状态z生成重构样本该操作通过变分自编码器的解码器部分实现,以重建与原始输入x相似的观测值。

15、步骤s3中,从阶乘后验分布中采样出潜在变量z,并使用解码器将其转化为生成样本该生成样本为模型创造的新数据点,用于模拟和增强说话人特征的多样性。

16、步骤s4中,所述解码器为基于transformer架构的解码器,包括多个串联的transformer单元,每个transformer单元包括用于从不同的子空间并行捕捉输入数据的复杂关系的多头注意力机制、层标准化模块、全连接层以及进一步的层标准化模块。

17、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的基于语音转换的音色生成方法。

本文档来自技高网...

【技术保护点】

1.一种基于语音转换的音色生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于语音转换的音色生成方法,其特征在于,步骤S1中,所述说话人编码器采用多层ResNet Block进行逐层降采样,以提取不同分辨率的声学信息。

3.如权利要求1或2所述的基于语音转换的音色生成方法,其特征在于,步骤S1中,通过集成注意力机制的VAE结构,实现对说话人嵌入向量的编码和解码。

4.如权利要求1至3任一项所述的基于语音转换的音色生成方法,其特征在于,步骤S2中,通过前馈神经网络执行维度压缩,对HuBERT模型进行微调,以提升声学特征的解耦能力,从而优化与语言内容相关的声学特征表示。

5.如权利要求4所述的基于语音转换的音色生成方法,其特征在于,步骤S2中,通过瓶颈压缩技术减少说话人信息量,提高与语言内容相关的声学特征表示的解耦性和音色相似度。

6.如权利要求1至5任一项所述的基于语音转换的音色生成方法,其特征在于,步骤S3中,使用经验后验分布q(z)来指导潜在变量z的多元分布,使得根据输入x变化的潜在状态z能够反映输入数据的统计特性。

7.如权利要求6所述的基于语音转换的音色生成方法,其特征在于,步骤S3中,执行重构操作以从潜在状态z生成重构样本该操作通过变分自编码器的解码器部分实现,以重建与原始输入x相似的观测值。

8.如权利要求6所述的基于语音转换的音色生成方法,其特征在于,步骤S3中,从阶乘后验分布中采样出潜在变量z,并使用解码器将其转化为生成样本该生成样本为模型创造的新数据点,用于模拟和增强说话人特征的多样性。

9.如权利要求1至8任一项所述的基于语音转换的音色生成方法,其特征在于,步骤S4中,所述解码器为基于Transformer架构的解码器,包括多个串联的Transformer单元,每个Transformer单元包括用于从不同的子空间并行捕捉输入数据的复杂关系的多头注意力机制、层标准化模块、全连接层以及进一步的层标准化模块。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序由处理器执行时,实现如权利要求1至9任一项所述的基于语音转换的音色生成方法。

...

【技术特征摘要】

1.一种基于语音转换的音色生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于语音转换的音色生成方法,其特征在于,步骤s1中,所述说话人编码器采用多层resnet block进行逐层降采样,以提取不同分辨率的声学信息。

3.如权利要求1或2所述的基于语音转换的音色生成方法,其特征在于,步骤s1中,通过集成注意力机制的vae结构,实现对说话人嵌入向量的编码和解码。

4.如权利要求1至3任一项所述的基于语音转换的音色生成方法,其特征在于,步骤s2中,通过前馈神经网络执行维度压缩,对hubert模型进行微调,以提升声学特征的解耦能力,从而优化与语言内容相关的声学特征表示。

5.如权利要求4所述的基于语音转换的音色生成方法,其特征在于,步骤s2中,通过瓶颈压缩技术减少说话人信息量,提高与语言内容相关的声学特征表示的解耦性和音色相似度。

6.如权利要求1至5任一项所述的基于语音转换的音色生成方法,其特征在于,步骤s3中,使用经验后验分布q(z)来指导潜在变量z的多元分布,使得根据输入x...

【专利技术属性】
技术研发人员:吴志勇肖龙成明
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1