声学模型训练方法、装置及语音合成方法制造方法及图纸

技术编号：34357190 阅读：33 留言：0更新日期：2022-07-31 06:49

本说明书实施例提供一种声学模型训练方法、装置及语音合成方法，其中，所述声学模型训练方法包括：获取多个样本，所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱；将所述多个样本输入声学模型；基于损失目标，迭代调整所述声学模型的模型参数，直至训练完成。至训练完成。至训练完成。

全部详细技术资料下载

【技术实现步骤摘要】
声学模型训练方法、装置及语音合成方法

[0001]本说明书涉及人工智能
，特别涉及一种声学模型训练方法、装置及语音合成方法。

技术介绍

[0002]随着机器学习的发展，语音合成技术越发成熟。然而，现有的语音合成技术仍然存在较多问题，例如，语音生硬不自然，缺乏丰富的情感表达等。因此，有必要提供一种语音合成方法，提升机器人语音的自然感及情感丰富程度。

技术实现思路

[0003]本说明书实施例提供一种声学模型训练方法，所述方法包括：获取多个样本，所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱；将所述多个样本输入声学模型；基于损失目标，迭代调整所述声学模型的模型参数，直至训练完成。
[0004]在一些实施例中，所述声学模型包括：编码器，用于确定所述样本文本输入的文本序列向量；有监督模块，用于确定所述样本情感标签对应的样本情感嵌入向量；无监督模块，用于确定所述样本参考梅尔谱对应的样本参考风格向量。
[0005]在一些实施例中，所述声学模型还...

【技术保护点】

【技术特征摘要】
1.一种声学模型训练方法，其特征在于，所述方法包括：获取多个样本，所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱；将所述多个样本输入声学模型，其中，所述声学模型包括：有监督模块，用于确定所述样本情感标签对应的样本情感嵌入向量；无监督模块，用于确定所述样本参考梅尔谱对应的样本参考风格向量；以及向量处理模块，用于基于所述样本情感嵌入向量和所述样本参考风格向量的加和，确定综合情感向量；至少基于所述综合情感向量及损失目标，迭代调整所述声学模型的模型参数，直至训练完成。2.如权利要求1所述的方法，其特征在于，所述声学模型还包括：编码器，用于确定所述样本文本输入的文本序列向量。3.如权利要求1所述的方法，其特征在于，所述综合情感向量为字符级嵌入向量。4.如权利要求2所述的方法，其特征在于，所述声学模型还包括：解码器，用于基于所述文本序列向量和所述综合情感向量的级联向量，确定预测梅尔谱。5.如权利要求4所述的方法，其特征在于，所述向量处理模块还用于确定隐状态向量；所述声学模型还包括：情感分类器，用于基于所述隐状态向量确定向量情感类别。6.如权利要求5所述的方...

【专利技术属性】
技术研发人员：谌明，徐欣康，胡新辉，赵旭东，
申请(专利权)人：杭州同花顺数据开发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人