一种基于VITS的实时语音转换方法与装置制造方法及图纸

技术编号：43073440 阅读：28 留言：0更新日期：2024-10-22 14:48

本发明专利技术公开了一种基于VITS的实时语音转换方法与装置，方案中：基于VITS的端到端实时语音转换技术，实现任意对任意的语音转换，具有重要的意义和价值，并且是一种一阶段的语音转换方案，通过端到端的训练方式实现了语音转换，相较于传统的两阶段模型，本发明专利技术消除了声学特征匹配的差异性，从而提高了转换效果。同时，为了实现任意对任意的语音转换，引入说话人编码器，还引入神经解码器以提高语音转换的速度，能够满足实时性需求；此外，还通过实验验证了本发明专利技术在转换速度和语音转换效果方面的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音转换，尤其涉及一种基于vits的实时语音转换方法与装置。

技术介绍

1、语音转换(vc)是一项旨在修改说话人信息的语音特征的任务，例如说话人的身份、情感和口音，同时保留语音的内容信息。随着对语音转换领域的研究不断深入，该领域的技术正在迅速发展。从最初的基于统计建模的方法，到如今的基于深度学习技术的方法。这种技术的进步对语音在现实世界中的多种应用产生了促进作用，并使用户受益。例如语音合成，语音身份隐私的保护，说话人识别，以及个性化语音助手等。

2、随着科技进步的驱动，语音转换技术逐渐受到广泛关注。虽然当前的研究已能够提供高品质的语音转换，但实时语音转换的能力仍显不足。

3、随着深度学习和神经网络的广泛应用，语音转换模型变得越来越复杂，从而导致了语音转换速度问题的凸显。特别是在实时通信和语音助手等场景中，用户对于快速、即时的语音转换效果有了更高的期待，提高语音的转换速度已然成为了研究者们面临的重要任务。

4、语音转换技术的进步已经在人们的日常生活和工作中带来了显著的影响，尽管面临着多项挑...

【技术保护点】

1.一种基于VITS的实时语音转换方法，其特征在于，包括：

2.根据权利要求1所述的一种基于VITS的实时语音转换方法，其特征在于，预处理包括：

3.根据权利要求1所述的一种基于VITS的实时语音转换方法，其特征在于，所述先验编码器包括：预训练的HuBERT模型与内容编码器；其中，所述预训练的HuBERT模型负责从源语音中提取语音内容特征；所述内容编码器对语音内容特征进行维度转换后映射至特征空间，再分割为语音特征先验分布的均值与方差，由此建模语音特征的先验分布。

4.根据权利要求1所述的一种基于VITS的实时语音转换方法，其特征在于，所述说话人编码器使...

【技术特征摘要】

1.一种基于vits的实时语音转换方法，其特征在于，包括：

2.根据权利要求1所述的一种基于vits的实时语音转换方法，其特征在于，预处理包括：

3.根据权利要求1所述的一种基于vits的实时语音转换方法，其特征在于，所述先验编码器包括：预训练的hubert模型与内容编码器；其中，所述预训练的hubert模型负责从源语音中提取语音内容特征；所述内容编码器对语音内容特征进行维度转换后映射至特征空间，再分割为语音特征先验分布的均值与方差，由此建模语音特征的先验分布。

4.根据权利要求1所述的一种基于vits的实时语音转换方法，其特征在于，所述说话人编码器使用预训练的说话人鉴别模型实现，包括：lstm堆叠层及其后方依次连接的线性层、激活函数层与l2归一化层；其中，lstm堆叠层从输入的目标语音的梅尔频谱图中提取出随时间变换的动态特征，经过线性层处理获得携带说话人身份信息的嵌入向量，经过激活函数层引入非线性后，经由l2归一化层输出说话人特征。

5.根据权利要求1或3所述的一种基于...

【专利技术属性】
技术研发人员：曹丹阳，张泽益，张金元，高磊，
申请(专利权)人：北方工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人