声学模型训练方法、装置及语音合成方法制造方法及图纸

技术编号:34357190 阅读:22 留言:0更新日期:2022-07-31 06:49
本说明书实施例提供一种声学模型训练方法、装置及语音合成方法,其中,所述声学模型训练方法包括:获取多个样本,所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱;将所述多个样本输入声学模型;基于损失目标,迭代调整所述声学模型的模型参数,直至训练完成。至训练完成。至训练完成。

【技术实现步骤摘要】
声学模型训练方法、装置及语音合成方法


[0001]本说明书涉及人工智能
,特别涉及一种声学模型训练方法、装置及语音合成方法。

技术介绍

[0002]随着机器学习的发展,语音合成技术越发成熟。然而,现有的语音合成技术仍然存在较多问题,例如,语音生硬不自然,缺乏丰富的情感表达等。因此,有必要提供一种语音合成方法,提升机器人语音的自然感及情感丰富程度。

技术实现思路

[0003]本说明书实施例提供一种声学模型训练方法,所述方法包括:获取多个样本,所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱;将所述多个样本输入声学模型;基于损失目标,迭代调整所述声学模型的模型参数,直至训练完成。
[0004]在一些实施例中,所述声学模型包括:编码器,用于确定所述样本文本输入的文本序列向量;有监督模块,用于确定所述样本情感标签对应的样本情感嵌入向量;无监督模块,用于确定所述样本参考梅尔谱对应的样本参考风格向量。
[0005]在一些实施例中,所述声学模型还包括:向量处理模块,用于基于所述样本情感嵌入向量和所述样本参考风格向量的加和,确定综合情感向量,其中,所述综合情感向量为字符级嵌入向量。
[0006]在一些实施例中,所述声学模型还包括:解码器,用于基于所述文本序列向量和所述综合情感向量的级联向量,确定预测梅尔谱。
[0007]在一些实施例中,所述向量处理模块还用于确定隐状态向量;所述声学模型还包括:情感分类器,用于基于所述隐状态向量确定向量情感类别。
[0008]在一些实施例中,所述声学模型还包括:向量预测模块,用于基于所述文本序列向量,确定样本预测风格向量。
[0009]在一些实施例中,所述声学模型还包括:情感鉴别模块,用于确定所述预测梅尔谱对应的预测深度情感特征和所述参考梅尔谱对应的参考深度情感特征。
[0010]在一些实施例中,所述损失目标包括以下内容中的至少一个:所述样本预测风格向量与所述参考风格向量间的差异损失;所述情感类别的分类损失;所述预测梅尔谱与所述参考梅尔谱的差异损失;所述预测深度情感特征和所述参考深度情感特征的差异损失。
[0011]本说明书实施例还提供一种语音合成方法,所述方法包括:获取文本输入和所述文本输入对应的情感标签;基于所述文本输入和所述情感标签,通过训练好的声学模型,生成所述文本输入对应的预测梅尔谱;基于所述预测梅尔谱,生成所述文本输入对应的预测语音。
[0012]本说明书实施例还提供一种声学模型训练装置,所述装置包括:至少一个存储介
质,所述存储介质包括计算机指令;至少一个处理器,所述至少一个处理器用于执行所述计算机指令,以实现如上任一项所述的方法。
附图说明
[0013]本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本说明书一些实施例所示的示例性语音合成系统的应用场景示意图。
[0014]图2是根据本说明书一些实施例所示的示例性语音合成方法的流程图。
[0015]图3是根据本说明书一些实施例所示的示例性声学模型训练方法的流程图。
[0016]图4是根据本说明书一些实施例所示的示例性声学模型的示意图。
[0017]图5是根据本说明书一些实施例所示的示例性声学模型的训练过程示意图。
[0018]图6是根据本说明书一些实施例所示的示例性语音合成过程的示意图。
具体实施方式
[0019]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
[0020]如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
[0021]虽然本说明书对根据本说明书的实施例的系统中的某些模块或单元做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
[0022]本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
[0023]应当理解,本文使用的“系统”、“装置”、“模块”和/或“器件”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
[0024]图1是根据本说明书一些实施例所示的示例性语音合成系统的应用场景示意图。
[0025]在一些实施例中,语音合成系统100可以适用于人机对话、有声阅读、语音助手、语音翻译、变声等。
[0026]在一些实施例中,语音合成系统100可以包括终端设备110、存储设备120、处理设备130以及网络140。在一些实施例中,语音合成系统100中的各个部件可以以多种方式相互
连接。例如,终端设备110可以与处理设备130通过网络140连接,也可以与处理设备130直接连接(如图1中终端设备110和处理设备130之间的虚线箭头所示的双向连接)。又例如,存储设备120可以与处理设备130直接连接或通过网络140连接。又例如,终端设备110可以与存储设备120通过网络140连接,也可以与存储设备120直接连接(如图1中终端设备110和存储设备120之间的虚线箭头所示的双向连接)。
[0027]终端设备110可以接收、发送、输入和/或输出数据。在一些实施例中,终端设备110接收、发送、输入和/或输出的数据可以包括文本数据、语音数据、计算机指令等。例如,终端设备110可以获取用户输入数据(例如,语音输入、按键输入),将用户输入数据发送至处理设备130进行处理,并接收处理设备130基于用户输入数据生成的响应数据。进一步地,终端设备110可以将响应数据以语音的方式输出以实现人机交互。又例如,终端设备110可以从存储设备120获取文本数据,并对文本数据进行处理以生成语音数据;或将文本数据发送至处理设备130进行处理,并接收处理设备130对文本数据进行处理后得到的响应数据。
[0028]在一些实施例中,终端设备110接收的响应数据可以包括语音数据、文本数据、计算机指令等或其任意组合。当响本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声学模型训练方法,其特征在于,所述方法包括:获取多个样本,所述样本包括样本文本输入、与所述样本文本输入对应的样本情感标签以及与所述样本文本输入对应的样本参考梅尔谱;将所述多个样本输入声学模型,其中,所述声学模型包括:有监督模块,用于确定所述样本情感标签对应的样本情感嵌入向量;无监督模块,用于确定所述样本参考梅尔谱对应的样本参考风格向量;以及向量处理模块,用于基于所述样本情感嵌入向量和所述样本参考风格向量的加和,确定综合情感向量;至少基于所述综合情感向量及损失目标,迭代调整所述声学模型的模型参数,直至训练完成。2.如权利要求1所述的方法,其特征在于,所述声学模型还包括:编码器,用于确定所述样本文本输入的文本序列向量。3.如权利要求1所述的方法,其特征在于,所述综合情感向量为字符级嵌入向量。4.如权利要求2所述的方法,其特征在于,所述声学模型还包括:解码器,用于基于所述文本序列向量和所述综合情感向量的级联向量,确定预测梅尔谱。5.如权利要求4所述的方法,其特征在于,所述向量处理模块还用于确定隐状态向量;所述声学模型还包括:情感分类器,用于基于所述隐状态向量确定向量情感类别。6.如权利要求5所述的方...

【专利技术属性】
技术研发人员:谌明徐欣康胡新辉赵旭东
申请(专利权)人:杭州同花顺数据开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1