语音合成方法、装置、服务器及存储介质制造方法及图纸

技术编号:29215928 阅读:13 留言:0更新日期:2021-07-10 00:54
本申请涉及人工智能中的语音处理,提供一种语音合成方法、装置、服务器及存储介质,该方法包括:调用待训练的语音合成模型;将语音样本输入参考编码器进行编码处理,以提取语音数据的韵律特征向量和音色特征向量;将韵律特征向量、音色特征向量以及文本特征向量输入嵌入层进行叠加操作,得到目标特征向量;将目标特征向量输入解码器进行解码处理,以获取语音数据的预测梅尔频谱;根据预测梅尔频谱和语音数据的真实梅尔频谱,调整语音合成模型的模型参数,直至语音合成模型收敛;将待合成语音的目标语音情绪标签和目标身份标签输入至收敛的语音合成模型,得到梅尔频谱;根据梅尔频谱生成目标语音信息。本申请提高语音合成的效率。本申请提高语音合成的效率。本申请提高语音合成的效率。

【技术实现步骤摘要】
语音合成方法、装置、服务器及存储介质


[0001]本申请涉及语音处理的
,尤其涉及一种语音合成方法、装置、服务器及存储介质。

技术介绍

[0002]声音作为文字内容的载体之一,能够在日常生活中有效地进行信息传递,因此语音交互技术一直都是人们关注的对象。例如,客服系统的语音交互过程涉及大量的语音合成场景,从智能客服到短视频智能配音或者有声书等都是长时间的语音交互过程,因而目前的语音合成以追求提高用户的感知体验为主。目前市面上的语音合成产品多采用语音合成模型,语音合成模型的训练样本涉及不同场景、人物、情感等要素,训练样本的数量非常庞大,实现语音合成的效率较低。因此,如何提高语音合成的效率成为了亟需解决的问题。

技术实现思路

[0003]本申请的主要目的在于提供一种语音合成方法、装置、服务器及存储介质,旨在提高语音合成的效率。
[0004]第一方面,本申请提供一种语音合成方法,包括:
[0005]获取语音样本,所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签;
[0006]调用待训练的语音合成模型,所述语音合成模型包括参考编码器、嵌入层和解码器;
[0007]将所述语音样本输入所述参考编码器进行编码处理,以提取所述语音数据的韵律特征向量和音色特征向量,其中,所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的,所述音色特征向量是根据所述身份标签对所述语音数据编码得到的;
[0008]将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作,得到目标特征向量;
[0009]将所述目标特征向量输入所述解码器进行解码处理,以获取所述语音数据的预测梅尔频谱;
[0010]获取所述语音数据的真实梅尔频谱,并根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛;
[0011]获取待合成语音的目标语音情绪标签和目标身份标签,将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型,得到所述待合成语音的梅尔频谱;
[0012]根据所述待合成语音的梅尔频谱,生成目标语音信息。
[0013]第二方面,本申请还提供一种语音合成装置,所述语音合成装置包括:
[0014]获取模块,用于获取语音样本,所述语音样本包括用户的语音数据和所述语音数据对应的语音情绪标签和所述用户的身份标签;
[0015]调用模块,用于调用待训练的语音合成模型,所述语音合成模型包括参考编码器、
嵌入层和解码器;
[0016]编码模块,用于将所述语音样本输入所述参考编码器进行编码处理,以提取所述语音数据的韵律特征向量和音色特征向量,其中,所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的,所述音色特征向量是根据所述身份标签对所述语音数据编码得到的;
[0017]叠加模块,用于将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作,得到目标特征向量;
[0018]解码模块,用于将所述目标特征向量输入所述解码器进行解码处理,以获取所述语音数据的预测梅尔频谱;
[0019]所述获取模块,还用于获取所述语音数据的真实梅尔频谱;
[0020]调整模块,用于根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛;
[0021]所述获取模块,还用于获取待合成语音的目标语音情绪标签和目标身份标签;
[0022]输入模块,用于将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型,得到所述待合成语音的梅尔频谱;
[0023]生成模块,用于根据所述待合成语音的梅尔频谱,生成目标语音信息。
[0024]第三方面,本申请还提供一种服务器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的语音合成方法的步骤。
[0025]第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的语音合成方法的步骤。
[0026]本申请提供一种语音合成方法、装置、服务器及存储介质,本申请通过获取语音样本,语音样本包括用户的语音数据、语音数据对应的语音情绪标签和用户的身份标签;调用待训练的语音合成模型,语音合成模型包括参考编码器、嵌入层和解码器;将语音样本输入参考编码器进行编码处理,以提取语音数据的韵律特征向量和音色特征向量;将韵律特征向量、音色特征向量以及与语音数据对应的文本特征向量输入嵌入层进行叠加操作,得到目标特征向量;将目标特征向量输入解码器进行解码处理,以获取语音数据的预测梅尔频谱;获取语音数据的真实梅尔频谱,并根据预测梅尔频谱和真实梅尔频谱,调整语音合成模型的模型参数,直至语音合成模型收敛;获取待合成语音的目标语音情绪标签和目标身份标签,将目标语音情绪标签和目标身份标签输入至收敛的语音合成模型,得到待合成语音的梅尔频谱;根据待合成语音的梅尔频谱,生成目标语音信息。通过嵌入语音样本的目标特征向量,能够有效减少模型训练过程中所需的训练样本数量,语音合成模型能够快速收敛,且语音合成时无需输入参考语音,减少了数据处理过程,从而提高语音合成的效率。
附图说明
[0027]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本申请实施例提供的一种语音合成方法的步骤流程示意图;
[0029]图2为图1中的语音合成方法的子步骤流程示意图;
[0030]图3为本申请实施例提供的一种语音合成装置的示意性框图;
[0031]图4为图3中的语音合成装置的子模块的示意性框图;
[0032]图5为本申请实施例提供的一种服务器的结构示意性框图。
[0033]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0034]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0035]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取语音样本,所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签;调用待训练的语音合成模型,所述语音合成模型包括参考编码器、嵌入层和解码器;将所述语音样本输入所述参考编码器进行编码处理,以提取所述语音数据的韵律特征向量和音色特征向量,其中,所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的,所述音色特征向量是根据所述身份标签对所述语音数据编码得到的;将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作,得到目标特征向量;将所述目标特征向量输入所述解码器进行解码处理,以获取所述语音数据的预测梅尔频谱;获取所述语音数据的真实梅尔频谱,并根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛;获取待合成语音的目标语音情绪标签和目标身份标签,将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型,得到所述待合成语音的梅尔频谱;根据所述待合成语音的梅尔频谱,生成目标语音信息。2.如权利要求1所述的语音合成方法,其特征在于,所述嵌入层包括第一嵌入层和第二嵌入层;所述将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作,得到目标特征向量,包括:将所述韵律特征向量和所述音色特征向量输入所述第一嵌入层进行组合,得到组合特征向量;将所述组合特征向量和所述语音数据对应的文本信息的文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量。3.如权利要求2所述的语音合成方法,其特征在于,所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量之前,还包括:调整所述组合特征向量和/或所述文本特征向量,使得所述组合特征向量与所述文本特征向量的矩阵尺寸一致;所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量,包括:将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加,得到目标特征向量。4.如权利要求3所述的语音合成方法,其特征在于,所述调整所述组合特征向量和/或所述文本特征向量,包括:确定待调整的目标矩阵尺寸;获取所述组合特征向量的第一矩阵尺寸,根据所述目标矩阵尺寸和所述第一矩阵尺寸,确定所述组合特征向量的待调整的第一矩阵位置;通过预设标识填充待调整的所述第一矩阵位置;和/或获取所述文本特征向量的第二矩阵尺寸,根据所述目标矩阵尺寸和所述第二矩阵尺寸,确定所述文本特征向量的待调整的第二矩阵位置;
通过预设标识填充待调整的所述第二矩阵位置。5.如权利要求1所述的语音合成方法,其特征在于,所述根据所述预测梅尔频谱和真实梅尔频谱,调整所述语音合成模型的模型参数,直至所述语音合成模型收敛,包括:根据所述梅尔频谱和真实梅尔频谱,计算所述语音合成模型的模型损失值;基于所述模型损失值更新所述语音合成模型的模型参数,根据多个所述语音样本对更新模型参数的所述语音合成模型进行迭代训练;当确定更新模型参数的所述语音合成模型处于收敛状态,得到训练好的语音合成模型。6.如权利要求1
‑...

【专利技术属性】
技术研发人员:孙奥兰王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1