模型训练方法、语音合成方法、设备和计算机程序产品技术

技术编号:33042723 阅读:30 留言:0更新日期:2022-04-15 09:24
本申请涉及智能语音领域,提供了一种模型训练方法、语音合成方法、设备和计算机程序产品。本申请能够提高文字音素转化模型的训练效率。该方法包括:从训练数据库中获取包含具有多种发音的目标文字的文本序列及该文本序列对应发音的音频素材,通过语音识别模型提取该音频素材对应的音素序列并将其作为音素序列标注结果,及将文本序列输入至待训练的文字音素转化模型得到其输出的音素序列预测结果,然后将该音素序列标注结果与音素序列预测结果进行比较获得音素序列预测偏差,根据该音素序列预测偏差调整待训练的文字音素转化模型参数,当满足训练完成条件时得到文字音素转化模型。型。型。

【技术实现步骤摘要】
模型训练方法、语音合成方法、设备和计算机程序产品


[0001]本申请涉及智能语音
,特别是涉及一种模型训练方法、语音合成方法、设备和计算机程序产品。

技术介绍

[0002]语音识别和语音合成是目前应用广泛的智能语音技术,语音识别可以把人类的语音内容转换为文字,语音合成则为其逆过程,即输入一段文字生成对应的语音音频。
[0003]对于语音合成,当输入一段文字时,语音合成系统将其转化为音素序列并以此音素序列生成音频。其中,对于多音字,虽然语音合成系统中的文字音素转化模型会参考分词结果和上下文等信息判断文字发音得到对应音素,但仍会转化出错。
[0004]为找到文字音素转化模型的转化错误以训练模型使之得到优化,传统技术所采用的主要是人工穷举的方式,先根据目标文字人工创造对应的文本并对文本中的文字分别作人工音素标注得到模型训练样本,从而利用这些样本训练模型,但这种方式容易因人工音节标注的训练样本稀缺导致模型训练效率低而影响模型转化准确性的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种模型训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:从训练数据库中获取包含目标文字的文本序列及所述文本序列对应发音的音频素材;所述目标文字为具有多种发音的文字;通过语音识别模型提取所述音频素材对应的音素序列;将所述文本序列输入至待训练的文字音素转化模型,得到所述待训练的文字音素转化模型输出的所述文本序列对应的音素序列预测结果;将所述音素序列作为所述文本序列对应的音素序列标注结果与所述音素序列预测结果进行比较,得到音素序列预测偏差;根据所述音素序列预测偏差调整所述待训练的文字音素转化模型参数,当满足训练完成条件时得到文字音素转化模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据发音字典,获取具有多种发音的多种感兴趣文字;针对每一种感兴趣文字,查找对应的感兴趣文本序列;所述感兴趣文本序列包含对应的感兴趣文字且关联有感兴趣音频素材;所述感兴趣音频素材为所述感兴趣文本序列对应发音的音频素材;基于所述每一种感兴趣文字对应的感兴趣文本序列及所述感兴趣文本序列关联的感兴趣音频素材,构建所述训练数据库。3.根据权利要求2所述的方法,其特征在于,所述针对每一种感兴趣文字,查找对应的感兴趣文本序列,包括:获取原始音频素材;所述原始音频素材携带对应发音的原始文本序列的情况下,从所述原始文本序列中提取包含对应的感兴趣文字的单位语句作为所述感兴趣文本序列;所述感兴趣音频素材为所述原始音频素材中所述单位语句对应发音的素材片段。4.根据权利要求3所述的方法,其特征在于,还包括:所述原始音频素材未携带所述原始文本序列的情况下,将所述原始音频素材...

【专利技术属性】
技术研发人员:谭志力
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1