使用条件解耦序列变分自编码器的改进零样本语音转换的技术制造技术

技术编号：42554582 阅读：14 留言：0更新日期：2024-08-29 00:26

提供了一种使用条件解耦序列变分自编码器(C‑DSVAE)的语音转换的方法、系统、装置和计算机可读介质。由至少一个处理器执行的方法包括：接收输入语音片段；通过共享编码器对输入语音片段进行编码以生成说话者嵌入和内容嵌入；以及通过说话者编码器对说话者嵌入的后验分布进行编码，以及通过内容编码器对内容嵌入的后验分布进行编码，以获得编码结果。方法还包括：启用内容偏差，以及使用内容偏差重塑内容嵌入；以及基于编码结果和所重塑的内容嵌入生成重建的语音输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

与本公开的示例实施例一致的装置和方法涉及使用条件解耦序列变分自编码器(conditional disentangled sequential variational auto-encoder，c-dsvae)的零样本(zero-shot)语音转换(vc)，该编码器采用解耦序列变分自编码器(dsvae)基线，并启用内容偏差作为条件，并对从后验分布中采样的内容嵌入进行重塑以实现改进的零样本vc。

技术介绍

1、在现有技术中，vc系统利用从统计建模到深度学习的技术进步，并在管道(pipeline)如何发展上实现了重大转变。例如，具有并行训练数据的vc方法利用转换模块将源声学特征映射到目标声学特征。这类vc方法需要在映射之前将源-目标的vc对的说话者对齐。然而，序列到序列模型(没有对齐的前提下)可以带来更好的vc性能。对于具有非并行数据的vc，很难进行直接的特征映射。相反，可以明确地学习说话风格和内容表示，并将神经网络训练为解码器以重建声学特征，并假设当在转换期间交换内容和说话者风格时，解码器也可以很好地泛化。在这些学习方法中，音素后验图(phonetic pos本文档来自技高网...

【技术保护点】

1.一种语音转换的方法，所述语音转换使用了条件解耦序列变分自编码器(C-DSVAE)，所述方法由至少一个处理器执行，所述方法包括：

2.根据权利要求1所述的方法，其中，在推断时将所述内容嵌入和目标嵌入进行拼接以获得语音转换的语音输出。

3.根据权利要求1所述的方法，其中，所述内容偏差是强制对齐或伪标签中的一个。

4.根据权利要求1所述的方法，其中，所述方法是在语音克隆工具包(VCTK)数据集上执行的。

5.根据权利要求1所述的方法，其中，片段是从用于训练所述C-DSVAE的所述输入语音片段中随机选择的。

6.根据权利要求1所述的...

【技术特征摘要】
【国外来华专利技术】

1.一种语音转换的方法，所述语音转换使用了条件解耦序列变分自编码器(c-dsvae)，所述方法由至少一个处理器执行，所述方法包括：

2.根据权利要求1所述的方法，其中，在推断时将所述内容嵌入和目标嵌入进行拼接以获得语音转换的语音输出。

3.根据权利要求1所述的方法，其中，所述内容偏差是强制对齐或伪标签中的一个。

4.根据权利要求1所述的方法，其中，所述方法是在语音克隆工具包(vctk)数据集上执行的。

5.根据权利要求1所述的方法，其中，片段是从用于训练所述c-dsvae的所述输入语音片段中随机选择的。

6.根据权利要求1所述的方法，其中，总损失至少基于(i)所述输入语音片段和所重建的语音输出之间的重建损失，(ii)所述说话者嵌入的先验和后验分布，以及(iii)所述内容嵌入的条件先验和后验分布之间的kl-散度。

7.根据权利要求1所述的方法，其中，所重建的语音输出以声谱图的形式生成，以及所述方法还包括：

8.一种语音转换的装置，所述语音转换使用了条件解耦序列变分自编码器(c-dsvae)，所述装置包括：

9.根据权利要求8所述的装置，其中，在推断时将所述内容嵌入和目标嵌入进行拼接以获得语音转换的语音输出。

10.根据权利要求8所述的装置，其中，所述内容偏差是强制对齐或伪标签中的一个。

11.根据权利要求8所述的装置，其中，所述方法是在语音克隆工具包(vctk)数据集上执行的。

12.根据权利要求8所述的装置，其中，片段是从用于训练所述c-dsvae的所述输入语音片段中随机选择...

【专利技术属性】
技术研发人员：张春雷，连甲琛，俞栋，
申请(专利权)人：腾讯美国有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人