音色转换模型的训练方法、音色转换方法、装置及设备制造方法及图纸

技术编号：38485487 阅读：18 留言：0更新日期：2023-08-15 17:01

本申请公开了一种音色转换模型的训练方法、音色转换方法、装置及设备，涉及音频处理技术领域。该方法包括：获取样本音频的音频内容信息、音频特征信息和声纹特征；将上述音频内容信息、音频特征信息和声纹特征，输入至音色转换模型，由音色转换模型输出预测的声学特征；根据预测的声学特征和样本音频的声学特征之间的差异，对音色转换模型的参数进行调整，得到训练后的音色转换模型。通过使用上述多种音频特征，对音色转换模型进行训练，使得采用该模型转换得到的音频与目标音色相似度更高，且发音质量更好。而且，上述针对音色转换模型的训练过程，是一个自监督的训练过程，无需依赖人工标注等其他处理流程，对于训练音色转换模型非常方便。模型非常方便。模型非常方便。

全部详细技术资料下载

【技术实现步骤摘要】
音色转换模型的训练方法、音色转换方法、装置及设备

[0001]本申请涉及音频处理
，特别涉及一种音色转换模型的训练方法、音色转换方法、装置及设备。

技术介绍

[0002]语音转换技术是一种将某一个发音人所说的音频内容，转换到另一个发音人的音色上的语音算法技术。本申请主要涉及说话语音的音色转换。
[0003]语音转换的技术类型可以分为两类：一是只保留发音人A的音频内容信息，转换后的音频由发音人B的发音节奏(每个字的发音时间)和发音特点(音调高低、音量高低、声音起伏等)来表达该内容信息；二是完全保留发音人A在音频中的内容信息、发音节奏和发音特点等，转换后只是用发音人B的音色声纹来表达该音频，通俗的说即将发音人B的音色“套”在该音频上。本申请主要针对上述第二种语音转换技术。
[0004]然而，目前针对上述第二种语音转换技术，其转换效果还需进一步提升。

技术实现思路

[0005]本申请实施例提供了一种音色转换模型的训练方法、音色转换方法、装置及设备。本申请实施例提供的技术方案如下：
[0006]根据本申请实施例的一个方面，提供了一种音色转换模型的训练方法，所述方法包括：
[0007]获取样本音频的音频内容信息、音频特征信息和声纹特征，所述音频内容信息用于表征所述样本音频的音频内容，所述音频特征信息用于表征所述样本音频的发音特点；
[0008]将所述音频内容信息、所述音频特征信息和所述声纹特征，输入至音色转换模型，由所述音色转换模型输出预测的声学特征；
[0...

【技术保护点】

【技术特征摘要】
1.一种音色转换模型的训练方法，其特征在于，所述方法包括：获取样本音频的音频内容信息、音频特征信息和声纹特征，所述音频内容信息用于表征所述样本音频的音频内容，所述音频特征信息用于表征所述样本音频的发音特点；将所述音频内容信息、所述音频特征信息和所述声纹特征，输入至音色转换模型，由所述音色转换模型输出预测的声学特征；根据所述预测的声学特征和所述样本音频的声学特征之间的差异，对所述音色转换模型的参数进行调整，得到训练后的音色转换模型。2.根据权利要求1所述的方法，其特征在于，所述获取样本音频的音频内容信息，包括：获取所述样本音频的声学特征；对所述样本音频的声学特征进行数据增强处理，得到增强后的声学特征；将所述增强后的声学特征输入至音频内容获取模型，由所述音频内容获取模型输出所述样本音频的音频内容信息。3.根据权利要求2所述的方法，其特征在于，所述数据增强处理包括以下至少之一：基频变化、共振峰变化、能量变化。4.根据权利要求1所述的方法，其特征在于，所述音频特征信息包括：第一特征信息，用于表征所述样本音频的基频的变化情况；第二特征信息，用于表征所述样本音频的轻辅音的变化情况。5.根据权利要求4所述的方法，其特征在于，所述获取样本音频的音频特征信息，包括：将所述样本音频划分为多个音频片段；获取所述多个音频片段各自的基频；对于每一个音频片段，根据所述音频片段的基频，以及所述多个音频片段各自的基频的平均值，确定所述音频片段的基频变化量；根据所述多个音频片段各自的基频变化量，得到所述第一特征信息；对于每一个音频片段，根据所述音频片段的基频，确定所述音频片段的轻辅音特征值，所述轻辅音特征值用于表征所述音频片段属于轻音片段或辅音片段；根据所述多个音频片段各自的轻辅音特征值，得到所述第二特征信息。6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述预测的声学特征和所述样本音频的声学特征之间的差异，对所述音色转换模型的参数进行调整，得到训练后的音色转换模型，包括：根据所述预测的声学特征和所述样本音频的声学特征之间的差异，计算损失函数值；根据所述损失函数值对所述音色转换模型的参数进行调整，得到训练后的音色转换模型。7.一种音色转换方法，其特征在于，所述方法包括：获取第一音频的音频内容信息和音频特征信息，所述音频内容信息用于表征所述第一音频的音频内容，所述音频特征信息用于表征所述第一音频的发音特点；将所述音频内容信息、所述音频特征信息以及目标音色的声纹特征，输入至音色转换模型，由所述音色转换模型输出声学特征；根据所述声学特征生成第二音频，所述第二音频是保留所述第一音频的音频内容和发音特点，并将所述第一音频的音色转换为所述目标音色之后的音频。
8.根据权利要求7所述的方法，其特...

【专利技术属性】
技术研发人员：黄杰雄，关迪聆，轩晓光，吴东海，陈传艺，
申请(专利权)人：广州世音联软件科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人