【技术实现步骤摘要】
本专利技术涉及语音,具体涉及音频风格向量训练方法及音频风格向量生成方法。
技术介绍
1、随着人工智能技术的快速发展,语音合成(text-to-speech,tts)模型在人机交互、虚拟助手、有声读物、声纹识别、语音分类等领域得到了广泛应用。高质量的语音合成不仅需要自然流畅的声音,还需要能够准确表达说话人的风格。目前,通常是采用tts模型中的自回归模型,例如tacotron模型,通过tacotron模型中的参考编码器,根据说话人提取对应的音频风格向量。
2、然而,上述的tacotron模型在进行音频风格向量的提取时,依赖说话人信息,在说话人信息不明确或有误的情况下,提取出的音频风格向量可能会有所偏差,影响音频风格向量的准确性,进而基于该音频风格向量训练出的模型的合成效果差,并且模型的灵活性和泛化能力差。
技术实现思路
1、有鉴于此,本专利技术提供了一种音频风格向量训练方法及音频风格向量生成方法,以解决现有模型在提取音频风格向量时存在偏差,基于该音频风格向量训练出的模型的合成效果差
...【技术保护点】
1.一种音频风格向量训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取多个样本音频、所述多个样本音频对应的样本文本和样本音频特征之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述样本音频特征包括音素、音高特征、直谱图和梅尔谱图,所述获取所述多个样本音频对应的样本音频特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述采用第一语音合成模型,基于所述样本音频的样本风格向量和样本音频特征进行语音合成,得到第一合成音频,包括:
5.根据权利要求3所述的方法,其特征
...【技术特征摘要】
1.一种音频风格向量训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述获取多个样本音频、所述多个样本音频对应的样本文本和样本音频特征之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述样本音频特征包括音素、音高特征、直谱图和梅尔谱图,所述获取所述多个样本音频对应的样本音频特征,包括:
4.根据权利要求3所述的方法,其特征在于,所述采用第一语音合成模型,基于所述样本音频的样本风格向量和样本音频特征进行语音合成,得到第一合成音频,包括:
...
【专利技术属性】
技术研发人员:孟庆梁,
申请(专利权)人:镁佳北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。