声学模型训练方法、语音合成方法及相关装置制造方法及图纸

技术编号:37621168 阅读:20 留言:0更新日期:2023-05-18 12:12
本公开提供了一种声学模型训练方法、语音合成方法及其相关装置,涉及语音合成技术领域。该方法包括基于第一标注文本,对第一韵律模型进行训练,第一韵律模型用于预测文本中的韵律特征;将训练后的第一韵律模型嵌入第一声学模型,得到第二声学模型,第一声学模型和第二声学模型均用于预测文本中的语音特征;基于第二标注文本以及与第二标注文本对应的音频数据,对第二声学模型进行训练;第一标注文本的数量大于第二标注文本的数量,且第一标注文本的获取成本小于第二标注文本的获取成本。本公开提供的方法在保证声音模型训练效果的同时,降低了内嵌韵律模型的声学模型训练时对音频数据的需求量,从而大幅降低声学模型整体的训练成本。训练成本。训练成本。

【技术实现步骤摘要】
声学模型训练方法、语音合成方法及相关装置


[0001]本公开涉及语音合成
,尤其涉及一种声学模型训练方法、语音合成方法及相关装置。

技术介绍

[0002]韵律模型是语音合成(Text To Speech,TTS)技术的重要组成之一,韵律预测的正确性对语音合成的自然程度具有重大影响。
[0003]相关技术中,为了在用于语音合成的声学模型中关联韵律特征,可以通过在声学模型内部,嵌入一个韵律模型,并使该韵律模型随着声学模型一起训练和收敛,从而重建说话人的语音风格。但由于对韵律模型的训练需要大量的样本,其对样本需求的数量远超过声学模型自身训练的需要,因此在声学模型中嵌入韵律模型,会使得声学模型整体的训练成本变得十分高昂。

技术实现思路

[0004]有鉴于此,本公开提供一种声学模型训练方法、语音合成方法及相关装置,单独训练一个韵律模型,在韵律模型训练完成后将其嵌入到声学模型中,再采用训练数据对嵌入了韵律模型的声学模型进行微调训练,在确保声学模型准确性的同时,还节省了训练资源。
[0005]第一方面,提供一种声学模型训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种声学模型训练方法,其特征在于,包括:基于第一标注文本,对第一韵律模型进行训练,所述第一韵律模型用于预测文本中的韵律特征;将训练后的所述第一韵律模型嵌入第一声学模型,得到第二声学模型,所述第一声学模型和所述第二声学模型均用于预测文本中的语音特征;基于第二标注文本以及与所述第二标注文本对应的音频数据,对所述第二声学模型进行训练;所述第一标注文本的数量大于所述第二标注文本的数量,且所述第一标注文本的获取成本小于所述第二标注文本的获取成本。2.根据权利要求1所述的方法,其特征在于,所述第一韵律模型包括依次连接的第一编码器、第一神经网络层以及线性层,其中,所述第一编码器用于生成所述第一标注文本的特征向量;所述第一神经网络层用于根据所述第一标注文本的特征向量,提取所述第一标注文本中韵律的文本特征表示;所述线性层用于将所述文本特征表示转换为韵律标记序列;所述第一声学模型包括依次连接的第二编码器、第二神经网络层以及解码器,所述第二编码器与所述第一编码器相同。3.根据权利要求2所述的方法,其特征在于,所述将训练后的所述第一韵律模型嵌入第一声学模型,得到第二声学模型,包括:针对训练后的所述第一韵律模型,删除所述第一编码器,并在所述线性层之后增加嵌入层,得到第二韵律模型,所述嵌入层用于对所述韵律标记序列进行嵌入表示;将所述第二韵律模型嵌入所述第一声学模型的所述第二编码器和所述第二神经网络层之间,得到所述第二声学模型。4.根据权利要求1或2所述的方法,其特征在于,所述第一标注文本包括训练文本以及所述训练文本的韵律标记;所述基于第一标注文本,对第一韵律模型进行训练,包括:对所述训练文本进行音素化处理,得到所述训练文本的音素表示;将所述训练文本的音素表示与所述训练文本的韵律标记分离,得到所述训练文本的音素序列和韵律序列;基于所述音素序列和所述韵...

【专利技术属性】
技术研发人员:乔宏利刘敏蒋宁吴海英夏粉
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1