【技术实现步骤摘要】
本专利技术涉及语音转换技术,特别是涉及一种基于语音转换的音色生成方法。
技术介绍
1、在当前的
,语音转换(voice conversion,vc)技术已经在语音助手、智能导航系统、虚拟角色等众多产品中找到了广泛应用。然而,尽管技术已取得显著进展,增加目标说话人声音的多样性仍然是一个极具挑战性的问题,于是越来越多的工作关注与如何进行音色生成领域。目前,增加声音多样性的常规方法依赖于使用大量说话人语料库来训练多说话人语音转换模型。这种方法能够复制语料库中包含的说话人的声音特征,但它要求为每个说话者提供大量的语音数据,这不仅成本高昂,而且在增强声音多样性方面的效果有限。为了克服这些限制,一些研究尝试利用说话人识别模型来开发少样本甚至零样本的语音转换模型,它们能够仅通过几句话就复现目标说话者的声音。然而,这些方法仍依赖于已有说话者的语音数据。与此相对,音色生成旨在创建不存在说话者的声音,从而解决收集已存在说话者语音数据的难题。音色生成的语音转换技术框架如图1所示。
2、目前音色生成的语音转换方案主要存在以下两个问题:(1)音
...【技术保护点】
1.一种基于语音转换的音色生成方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于语音转换的音色生成方法,其特征在于,步骤S1中,所述说话人编码器采用多层ResNet Block进行逐层降采样,以提取不同分辨率的声学信息。
3.如权利要求1或2所述的基于语音转换的音色生成方法,其特征在于,步骤S1中,通过集成注意力机制的VAE结构,实现对说话人嵌入向量的编码和解码。
4.如权利要求1至3任一项所述的基于语音转换的音色生成方法,其特征在于,步骤S2中,通过前馈神经网络执行维度压缩,对HuBERT模型进行微调,以提升声学特征的解
...【技术特征摘要】
1.一种基于语音转换的音色生成方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于语音转换的音色生成方法,其特征在于,步骤s1中,所述说话人编码器采用多层resnet block进行逐层降采样,以提取不同分辨率的声学信息。
3.如权利要求1或2所述的基于语音转换的音色生成方法,其特征在于,步骤s1中,通过集成注意力机制的vae结构,实现对说话人嵌入向量的编码和解码。
4.如权利要求1至3任一项所述的基于语音转换的音色生成方法,其特征在于,步骤s2中,通过前馈神经网络执行维度压缩,对hubert模型进行微调,以提升声学特征的解耦能力,从而优化与语言内容相关的声学特征表示。
5.如权利要求4所述的基于语音转换的音色生成方法,其特征在于,步骤s2中,通过瓶颈压缩技术减少说话人信息量,提高与语言内容相关的声学特征表示的解耦性和音色相似度。
6.如权利要求1至5任一项所述的基于语音转换的音色生成方法,其特征在于,步骤s3中,使用经验后验分布q(z)来指导潜在变量z的多元分布,使得根据输入x...
【专利技术属性】
技术研发人员:吴志勇,肖龙,成明,
申请(专利权)人:清华大学深圳国际研究生院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。