一种基于语音转换的音色生成方法技术

技术编号:41705975 阅读:24 留言:0更新日期:2024-06-19 12:37
一种基于语音转换的音色生成方法,包括:使用基于变分自编码器VAE的说话人编码器处理输入的原始声学特征,以提取说话人嵌入向量,并将说话人嵌入向量映射到一个连续的潜在空间中;基于说话人嵌入向量,使用基于HuBERT的软语音单元作为内容编码器,通过对训练数据进行推理和重新聚类获取新的聚类序列,并对聚类序列进行预测,以生成与语言内容相关的声学特征表示;利用说话人特征的表示,通过对抗训练,利用变分自编码器中的经验后验分布和阶乘后验分布,训练判别器以降低其区分生成的数据点和重采样的数据点的能力;基于经过对抗训练调整的说话人特征表示,使用解码器生成目标音色的声学特征信息。

【技术实现步骤摘要】

本专利技术涉及语音转换技术,特别是涉及一种基于语音转换的音色生成方法


技术介绍

1、在当前的
,语音转换(voice conversion,vc)技术已经在语音助手、智能导航系统、虚拟角色等众多产品中找到了广泛应用。然而,尽管技术已取得显著进展,增加目标说话人声音的多样性仍然是一个极具挑战性的问题,于是越来越多的工作关注与如何进行音色生成领域。目前,增加声音多样性的常规方法依赖于使用大量说话人语料库来训练多说话人语音转换模型。这种方法能够复制语料库中包含的说话人的声音特征,但它要求为每个说话者提供大量的语音数据,这不仅成本高昂,而且在增强声音多样性方面的效果有限。为了克服这些限制,一些研究尝试利用说话人识别模型来开发少样本甚至零样本的语音转换模型,它们能够仅通过几句话就复现目标说话者的声音。然而,这些方法仍依赖于已有说话者的语音数据。与此相对,音色生成旨在创建不存在说话者的声音,从而解决收集已存在说话者语音数据的难题。音色生成的语音转换技术框架如图1所示。

2、目前音色生成的语音转换方案主要存在以下两个问题:(1)音色生成需要一个丰富且本文档来自技高网...

【技术保护点】

1.一种基于语音转换的音色生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于语音转换的音色生成方法,其特征在于,步骤S1中,所述说话人编码器采用多层ResNet Block进行逐层降采样,以提取不同分辨率的声学信息。

3.如权利要求1或2所述的基于语音转换的音色生成方法,其特征在于,步骤S1中,通过集成注意力机制的VAE结构,实现对说话人嵌入向量的编码和解码。

4.如权利要求1至3任一项所述的基于语音转换的音色生成方法,其特征在于,步骤S2中,通过前馈神经网络执行维度压缩,对HuBERT模型进行微调,以提升声学特征的解耦能力,从而优化与语...

【技术特征摘要】

1.一种基于语音转换的音色生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于语音转换的音色生成方法,其特征在于,步骤s1中,所述说话人编码器采用多层resnet block进行逐层降采样,以提取不同分辨率的声学信息。

3.如权利要求1或2所述的基于语音转换的音色生成方法,其特征在于,步骤s1中,通过集成注意力机制的vae结构,实现对说话人嵌入向量的编码和解码。

4.如权利要求1至3任一项所述的基于语音转换的音色生成方法,其特征在于,步骤s2中,通过前馈神经网络执行维度压缩,对hubert模型进行微调,以提升声学特征的解耦能力,从而优化与语言内容相关的声学特征表示。

5.如权利要求4所述的基于语音转换的音色生成方法,其特征在于,步骤s2中,通过瓶颈压缩技术减少说话人信息量,提高与语言内容相关的声学特征表示的解耦性和音色相似度。

6.如权利要求1至5任一项所述的基于语音转换的音色生成方法,其特征在于,步骤s3中,使用经验后验分布q(z)来指导潜在变量z的多元分布,使得根据输入x...

【专利技术属性】
技术研发人员:吴志勇肖龙成明
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1