语音合成方法、计算机设备及计算机可读存储介质技术

技术编号:37501927 阅读:23 留言:0更新日期:2023-05-07 09:38
本申请实施例提供了语音合成方法、计算机设备及计算机可读存储介质,该方法包括:获取包括待合成文本、设定情感类别和设定情感强度的待处理信息;再获取与设定情感类别相匹配的情感基向量,并根据设定情感强度和所述该情感基向量确定目标情感向量;根据该目标情感向量生成长度与所述待合成文本的音素序列的长度相匹配的情感向量序列;再根据待合成文本和该情感向量序列进行语音合成处理,得到合成语音。通过本申请实施例可以利用文本合成能够展现设定情感和设定情感强度的语音,丰富了合成语音的情感信息。语音的情感信息。语音的情感信息。

【技术实现步骤摘要】
语音合成方法、计算机设备及计算机可读存储介质


[0001]本申请涉及计算机
,尤其涉及语音合成方法、计算机设备及计算机可读存储介质。

技术介绍

[0002]语音合成技术,又称文语转换(Text to Speech)技术,能将任意文字信息转化为标准流畅的语音。如今,语音合成技术广泛应用于智能音箱、地图导航以及语音助理等多个领域。随着深度学习技术的发展,端到端的语音合成系统取得了显著的进步。但目前合成语音的语调特征通常较为固定,不能展现出情感信息。

技术实现思路

[0003]本申请实施例提供语音合成方法、计算机设备及计算机可读存储介质,可以利用文本合成能够展现设定情感和设定情感强度的语音,丰富了合成语音的情感信息。
[0004]一方面,本申请提供了一种语音合成方法,该方法包括:
[0005]获取待处理信息,所述待处理信息包括待合成文本、设定情感类别和设定情感强度;
[0006]获取与所述设定情感类别相匹配的第一情感基向量,并根据所述设定情感强度和所述第一情感基向量确定目标情感向量;
[0007]根据所述目标情感向量生成第一情感向量序列,所述第一情感向量序列的长度与所述待合成文本的音素序列的长度相匹配;
[0008]根据所述待合成文本和所述第一情感向量序列进行语音合成处理,得到第一合成语音;所述第一合成语音所展现的情感类别与所述设定情感类别相匹配,所述第一合成语音所展现的情感强度与所述设定情感强度相匹配。
[0009]一方面,本申请提供了一种语音合成装置,该装置包括:
[0010]获取单元,用于获取待处理信息,所述待处理信息包括待合成文本、设定情感类别和设定情感强度;
[0011]处理单元,获取与所述设定情感类别相匹配的第一情感基向量,并根据所述设定情感强度和所述第一情感基向量确定目标情感向量;
[0012]所述处理单元,还用于根据所述目标情感向量生成第一情感向量序列,所述第一情感向量序列的长度与所述待合成文本的音素序列的长度相匹配;
[0013]所述处理单元,还用于根据所述待合成文本和所述第一情感向量序列进行语音合成处理,得到第一合成语音;所述第一合成语音所展现的情感类别与所述设定情感类别相匹配,所述第一合成语音所展现的情感强度与所述设定情感强度相匹配。
[0014]一方面,本申请实施例提供了一种计算机设备,包括:处理器和存储器,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,实现本申请实施例提供的语音合成方法。
[0015]相应地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机实现本申请实施例提供的语音合成方法。
[0016]相应地,本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备实现本申请实施例提供的语音合成方法。
[0017]本申请中,获取包括待合成文本、设定情感类别和设定情感强度的待处理信息,获取设定情感类别相匹配的情感基向量,并根据设定情感强度和该情感基向量确定目标情感向量;根据该目标情感向量生成长度与待合成文本的音素序列的长度相匹配的情感向量序列,并根据该待合成文本和该情感向量序列进行语音合成处理,得到合成语音。本申请提供的语音合成方法,在语音合成的过程中,加入了包含情感向量和情感强度的情感向量序列,使得根据文本合成的语音能够展现设定情感类别和设定情感强度,从而可以在将文本合成语音的基础上丰富合成语音的情感信息。
附图说明
[0018]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本申请实施例提供的语音合成方法所适用的系统架构示意图;
[0020]图2是本申请实施例提供的一种语音合成方法的流程示意图;
[0021]图3是本申请实施例提供的一种情感融合方式的示意图;
[0022]图4是本申请实施例提供的一种声学合成模型的结构示意图;
[0023]图5是本申请实施例提供的一种情感信息提取模型的结构示意图;
[0024]图6是本申请实施例提供的一种模型训练方法的流程示意图;
[0025]图7是本申请实施例提供的一种情感特征提取网络的结构示意图;
[0026]图8是本申请实施例提供的一种情感表征网络的结构示意图;
[0027]图9是本申请实施例提供的一种语音合成装置的结构示意图;
[0028]图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0029]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
[0031]本申请实施例提供一种语音合成方法,可以利用文本合成能够展现设定情感和设定情感强度的语音,达到丰富合成语音的情感信息的效果。本申请实施例提供的语音合成方法,可应用于人工智能领域。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。而在人工智能领域中一个重要的研究方向就是语音合成技术。
[0032]本申请实施例提供的语音合成方法可以由图1所示的语音合成设备101实现。在语音合成设备101进行文本合成语音的过程中,语音合成设备101获取包含待合成文本、设定情感类别以及设定情感强度的待处理信息,并获取与设定情感类别相匹配的情感基向量。情感基向量是表示特定情感类别的向量数据。每一个情感基向量表示一个特定情感类别。根据该情感基向量以及设定情感强度确定目标情感向量,则目标情感向量包含设定情感类别以及设定情感强度的情感特征。将目标情感向量生成长度与待合成文本的音素序列的长度相匹配的情感向量序列,并将该情感向量序列与待合成文本进行语音合成处理,得到合成语音。该合成语音能够展现设定情感类别以及设定情感强度,丰富了合成语音的情感信息。
[0033]在一实施例中,语音合成设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,所述方法包括:获取待处理信息,所述待处理信息包括待合成文本、设定情感类别和设定情感强度;获取与所述设定情感类别相匹配的第一情感基向量,并根据所述设定情感强度和所述第一情感基向量确定目标情感向量;根据所述目标情感向量生成第一情感向量序列,所述第一情感向量序列的长度与所述待合成文本的音素序列的长度相匹配;根据所述待合成文本和所述第一情感向量序列进行语音合成处理,得到第一合成语音;所述第一合成语音所展现的情感类别与所述设定情感类别相匹配,所述第一合成语音所展现的情感强度与所述设定情感强度相匹配。2.根据权利要求1所述的方法,其特征在于,所述根据所述待合成文本和所述第一情感向量序列进行语音合成处理,得到第一合成语音,包括:将所述待合成文本和所述第一情感向量序列输入目标声学合成模型中进行语音合成处理,得到第一合成语音;其中,所述目标声学合成模型由样本语音对应的第二情感向量序列及所述样本语音对应的训练文本训练得到,且所述第二情感向量序列由情感信息提取模型对所述样本语音进行处理得到的。3.根据权利要求2所述的方法,其特征在于,所述情感信息提取模型包括频谱提取网络、情感特征提取网络和情感表征网络,所述方法还包括:将所述样本语音输入所述频谱提取网络中进行处理,得到所述样本语音的梅尔谱,并将所述梅尔谱输入所述情感特征提取网络中进行处理,得到所述样本语音的参考情感特征;将所述参考情感特征输入所述情感表征网络中进行处理,由所述情感表征网络从多个初始情感基向量中确定与所述参考情感特征相匹配的第二情感基向量,并根据所述第二情感基向量生成第二情感向量序列;其中,所述第二情感向量序列的长度与所述训练文本的音素序列的长度相匹配,每一个所述初始情感基向量对应一种情感类别;将所述训练文本和所述第二情感向量序列输入所述初始声学合成模型中进行语音合成处理,得到第二合成语音;根据所述样本语音和所述第二合成语音确定第一损失参数,并根据所述第一损失参数对所述初始声学合成模型进行模型参数调整,得到所述目标声学合成模型。4.根据权利要求3所述的方法,所述将所述参考情感特征输入所述情感表征网络中进行处理,由所述情感表征网络从多个初始情感基向量中确定与所述参考情感特征相匹配的第二情感基向量,包括:将所述参考情感特征输入所述情感表征网络中进行处理,由所述情感表征网络确定所述参考情感特征与每一个所述初始情感基向量之间的相似度;由所述情感表征网络根据所述相似度从所述多个初始情感基向量中确定与所述参考情感特征相匹配的第二情感基向量。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据所述样本语音对应的样本情感类别以及所述参考情感特征与每一个所述初始情感基向量之间的相似度,确定第二损失参数;根据所述第二损失参数对所述多个初始情感基向量进...

【专利技术属性】
技术研发人员:陈屹婷杜嘉晨徐东赵伟峰
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1