基于二次重构的多语言音色转换方法技术

技术编号：40078581 阅读：13 留言：0更新日期：2024-01-17 02:03

本发明专利技术公开了一种基于二次重构的多语言音色转换方法，本发明专利技术构建由音色提取模块，文本预处理模块，梅尔频谱图生成模块组成音色转换学习网络；语音识别模型将音频识别出的文本替换成识别成音素，在完成音色转换任务的同时，提升了语音识别的准确率。音频两次重构生成新的梅尔频谱图，生成的过程不仅仅是进行了音色转换，而且实现了不同语种之间的音色转换。模型能够感知到不同语言之间的说话的差异性，并且能够在转换的过程中减缓语言差异性带来的影响，解决了不同语种间音色转换存在的口音问题，使得提取的文本特征更加精确，保证了音色转换后发音的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理，更进一步涉及音色转换中的一种基于二次重构的多语言音色转换方法。本专利技术可用于在多语言多音色的音色转换领域中将任意人音色转换成几种目标音色。

技术介绍

1、音色转换是一种音频处理技术，旨在将一个音频信号的音色(声音质地或音调特征)转换成另一个音色，同时保留原始声音的其他方面，如语速、节奏和语调。传统的音色转换方法通常依赖于平行数据和手工制定的规则或特征工程，限制了其应用范围和效果。随着深度学习技术的崛起，特别是卷积神经网络(cnn)和循环神经网络(rnn)的发展，研究人员开始探索如何利用深度学习来进行音色转换。深度学习模型可以自动学习输入和输出之间的复杂映射关系，因此被认为是一种有潜力的方法。而自监督学习是深度学习的一个重要分支，它的关键思想是利用数据自身的信息来进行监督学习，而不依赖于外部标签。在音色转换中，自监督学习可以利用音频数据自身的特征来训练模型，这降低了数据收集和标记的成本，同时使得合成的音频更加自然饱满。

2、benjamin van niekerk，marc-andre carbonneau在其发表的论文“a comparisonof discrete and soft speech units for improved voice conversion”(international conference on acoustics,speech and signal processing，2022)中提出了一种可以将任意人的音色转换成一种目标音色的音色转换方法。该方法采用自监督

3、山东大学在其申请的专利文献“语音转换方法、装置、存储介质及电子设备”(申请号：202310349539.7，申请公布号：cn 116416964 a)中提出了一种利用标签层次信息的多媒体数据跨模态信息检索方法。该方法具体步骤如下：

4、通过韵律编码模型提取所述待转换语音信号的韵律特征，自监督语音识别模型；提取所述待转换语音信号的第一音高特征和文本特征；根据所述音色指示信息、所述韵律特征、所述第一音高特征以及所述文本特征通过预先训练得到的语音转换模型将所述待转换语音信号转换为具有目标音色的目标语音信号，所述目标音色为所述目标发音对象的音色。该方法的不足之处是，基于语音识别模型抽取文本特征往往收到模型识别能力的影响，当语音识别模型识别错字率比较高时最终生成的音频会出现吐字模糊甚至错音的现象。

5、综上所述，基于自监督训练的学习方法借助于语音识别模型抽取特征时会受限于识别模型的识别准确率，在训练的整个过程中存在训练过程和预测过程不符的现象，同时自监督的训练方式使得模型过于拟合目标人的说话方式，在不同语种进行音色转换会出现口音的问题。

技术实现思路

1、本专利技术的目的在于针对上述现有技术的不足，提供一种基于二次重构的多语言音色转换方法，用于解决自监督训练的学习方法借助于语音识别模型，在模型训练的整个过程中存在训练过程和预测过程不符的现象，同时自监督的训练方式使得模型过于拟合目标人的说话方式，在不同语种进行音色转换会出现口音的问题。

2、本专利技术的技术思路是：本专利技术修改语音识别模型的训练任务，预训练新的语音识别模型。语音识别任务是将音频识别出文本，因此通常借助于语音识别模型抽取音频的文本特征。而对于音色转换任务来说，需要的语义信息只需要表示出音频有哪些发音构成即可，并不需要精确到有哪些文本构成，音素信息就表示音频有哪些发音构成。因此将语音识别模型的训练方式从音频识别出文本变成从音频识别出音素。音素和文本存在一对多的关系，识别出音素的训练方式降低了模型识别时的搜索空间，也就降低了识别的难度，从而提高语音识别模型的识别准确率，也就提升了音色转换的发音准确性。本专利技术改变自监督学习方式的训练过程，将整个训练过程变成分为生成和还原两步，训练数据有不同音色不同语种的音频构成，第一步的生成是将某一音频接受别人的音色信息区生成别人音色的音频，第二步再将已经生成别人音色信息的音频接受自己的音色信息还原成自己的原始音频，两步的过程都是而不是简单的由自己生成自己的过程。并且在第一步的过程中添加额外的损失函数从音色特征和语义特征限制第一步生成的音频，

3、根据上述技术思路，本专利技术采取的技术方案包括如下：

4、步骤1，构建由音色提取模块，文本预处理模块，梅尔频谱图生成模块依次串联组成的音色转换学习网络；

5、步骤2，建立训练集：

6、收集中文和英文至少2000个小时的音频数据和对应的文本；将音频转换成梅尔频谱图，将对应的文本换成音素；将梅尔频谱图和对应的文本构成用于训练语音识别模型的训练集；

7、将标贝开源的中文标准女声语音数据和英文开源数据hifi-tts作为目标人音色音频数据构成训练音色转换网络和声码器的训练集；

8、步骤3，训练语音识别模型：

9、将用于训练语音识别模型的训练集输入到基于开源模型wenet中，将语音识别的文字词典变成音素的词典训练出能够将音频识别出音素的语音识别模型；

10、步骤4，训练音色转换学习网络：

11、从目标人音色的音频训练集中随机选取16个音频数据输入到音色转换网络中，经过两次重构梅尔频谱图，使用adam优化算法，迭代更新音色转换学习网络的网络参数，直至音色转换网络的总损失函数收敛为止，得到训练好的音色转换学习网络；

12、步骤5，训练声码器：

13、将目标人音色的音频训练集输入到基于开源模型hifigan中训练，声码器将音色转换学习网络生成的梅尔频谱图合成音频；

14、步骤6，音色转换预测：

15、将待预测的音色转换输入到训练好的音色转换学习网络中，经网络的语音识别模型输出该音频的文本特征；网络的音色提取模块输出目标说话人的音色特征；将原音频的文本特征和目标说话人的音色特征输入到音色转换学习网络中生成新的梅尔频谱图，将梅尔频谱图输入到目标音色的声码器中生成音频。

16、本专利技术与现有技术相比，具有如下优点：

17、第一，本专利技术重新预训练了语音识别模型，并改变了语音识别模本文档来自技高网...

【技术保护点】

1.一种基于二次重构的多语言音色转换方法，其特征在于，该方法的步骤包括如下：

2.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤1中所述的音色提取模块的结构包括共享结构和非共享结构，共享结构由第一实例归一化层，第一激活函数层，第一卷积层，最大池化层，第二实例归一化层，第二激活函数层，第二卷积层，自适应池化层依次串联组成；非共享结构由n个不同的并列的线性层并联组成，线性层的个数n取决于待转换音色的个数，每一线性层输出对应待转换音色说话人的音色特征；将共享结构中第一、第二卷积层的参数分别设置为64*256*3*3，256*512*3*3；将最大池化层的窗口的长和宽设置为2，1，第一、第二激活函数层均采用relu函数实现，将自适应池化层的参数设置为1；非共享结构中线性层的参数均设置为512*256；音色特征表示为Hsty＝S(s,y),s表示梅尔频谱图，y表示待转换音色说话人的标签。

3.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤1中所述的文本特征预处理模块包括上采样结构和下采样结构；上采样结构由第一卷积层，插

4.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤1中所述的梅尔频谱图生成模块由线性层和6个结构相同的残差子网络依次串联构成，每个残差子网络均由第一实例归一化层，激活函数，第一卷积层，第二实例归一化层，激活函数，第二卷积层串联而成，将线性层的大小设置为256*1024，第一，第二卷积层的卷积核大小均设置为3，步长均设置为1，填充均为1，激活函数采用relu函数实现。

5.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤2中所述的音频数据包括中文英文至少两个不同人的音频。

6.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤4中所述两次重构梅尔频谱图的步骤如下：

7.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤4中所述音色转换网络的总损失函数为：

8.根据权利要求7所述的基于二次重构的多语言音色转换方法，其特征在于，所述音色损失函数Lsty如下：

9.根据权利要求8所述的基于二次重构的多语言音色转换方法，其特征在于，所述语义损失函数Lasr如下：

...

【技术特征摘要】

1.一种基于二次重构的多语言音色转换方法，其特征在于，该方法的步骤包括如下：

2.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤1中所述的音色提取模块的结构包括共享结构和非共享结构，共享结构由第一实例归一化层，第一激活函数层，第一卷积层，最大池化层，第二实例归一化层，第二激活函数层，第二卷积层，自适应池化层依次串联组成；非共享结构由n个不同的并列的线性层并联组成，线性层的个数n取决于待转换音色的个数，每一线性层输出对应待转换音色说话人的音色特征；将共享结构中第一、第二卷积层的参数分别设置为64*256*3*3，256*512*3*3；将最大池化层的窗口的长和宽设置为2，1，第一、第二激活函数层均采用relu函数实现，将自适应池化层的参数设置为1；非共享结构中线性层的参数均设置为512*256；音色特征表示为hsty＝s(s,y),s表示梅尔频谱图，y表示待转换音色说话人的标签。

3.根据权利要求1所述的基于二次重构的多语言音色转换方法，其特征在于，步骤1中所述的文本特征预处理模块包括上采样结构和下采样结构；上采样结构由第一卷积层，插值函数层，激活函数层，第二卷积层串联构成；下采样结构由第一卷积层，池化层，激活函数层，第二卷积层串联构成；上采样结构与下采样结构中的第一、第二卷积层的卷积核大...

【专利技术属性】
技术研发人员：王笛，张涛，田玉敏，李少峰，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人