音频风格向量训练方法及音频风格向量生成方法技术

技术编号：44367022 阅读：30 留言：0更新日期：2025-02-25 09:46

本发明专利技术涉及语音技术领域，公开了音频风格向量训练方法及音频风格向量生成方法，包括：获取样本音频、样本音频的样本文本和样本音频特征；采用风格编码层，基于样本音频特征，确定样本风格向量；采用说话人分类器进行分类得到样本分类结果；采用语音合成模型，基于样本风格向量和样本音频特征进行语音合成，得到合成音频；确定合成损失和分类损失；基于合成损失和分类损失进行训练，将训练好的风格编码层集成到训练好的语音合成模型中，得到目标语音合成模型。本发明专利技术无需依赖说话人信息的情况下，也能够准确提取音频中的风格向量，从而基于该风格向量进行训练，使得训练出的语音合成模型能够准确提取音频的风格向量，并且准确地进行语音合成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音，具体涉及音频风格向量训练方法及音频风格向量生成方法。

技术介绍

1、随着人工智能技术的快速发展，语音合成(text-to-speech，tts)模型在人机交互、虚拟助手、有声读物、声纹识别、语音分类等领域得到了广泛应用。高质量的语音合成不仅需要自然流畅的声音，还需要能够准确表达说话人的风格。目前，通常是采用tts模型中的自回归模型，例如tacotron模型，通过tacotron模型中的参考编码器，根据说话人提取对应的音频风格向量。

2、然而，上述的tacotron模型在进行音频风格向量的提取时，依赖说话人信息，在说话人信息不明确或有误的情况下，提取出的音频风格向量可能会有所偏差，影响音频风格向量的准确性，进而基于该音频风格向量训练出的模型的合成效果差，并且模型的灵活性和泛化能力差。

技术实现思路

1、有鉴于此，本专利技术提供了一种音频风格向量训练方法及音频风格向量生成方法，以解决现有模型在提取音频风格向量时存在偏差，基于该音频风格向量训练出的模型的合成效果差...

【技术保护点】

1.一种音频风格向量训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取多个样本音频、所述多个样本音频对应的样本文本和样本音频特征之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述样本音频特征包括音素、音高特征、直谱图和梅尔谱图，所述获取所述多个样本音频对应的样本音频特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述采用第一语音合成模型，基于所述样本音频的样本风格向量和样本音频特征进行语音合成，得到第一合成音频，包括：

5.根据权利要求3所述的方法，其特征在于，所述采用第二语...

【技术特征摘要】

1.一种音频风格向量训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取多个样本音频、所述多个样本音频对应的样本文本和样本音频特征之前，所述方法还包括：

...

【专利技术属性】
技术研发人员：孟庆梁，
申请(专利权)人：镁佳北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人