语音合成方法、装置、设备及存储介质制造方法及图纸

技术编号:38543952 阅读:13 留言:0更新日期:2023-08-22 20:54
本申请公开了一种语音合成方法、装置、设备及存储介质,本申请对待合成的原始文本进行文本分析得到音素序列;将音素序列输入配置的语音合成模型,得到模型输出的合成语音,语音合成模型为,以对基础语音合成模型所合成的与输入测试文本对应的多条候选语音的评分结果作为奖励信号,对基础语音合成模型进行参数调整后的最终语音合成模型,其中,对各条候选语音的评分结果符合用户听感目标。本申请在语音合成模型的训练过程增加了用户听感的反馈信号(即作为奖励信号的评分结果),引导语音合成模型朝着更符合用户听感的方向去优化模型参数,使得合成语音更加满足用户的听感目标,提升了语音合成效果。升了语音合成效果。升了语音合成效果。

【技术实现步骤摘要】
语音合成方法、装置、设备及存储介质


[0001]本申请涉及语音合成
,更具体的说,是涉及一种语音合成方法、装置、设备及存储介质。

技术介绍

[0002]人类在日常生活中相互交流的方式多种多样,而最直接易懂和自然的交流模式就是语音,计算机和互联网科技的飞速发展很大程度上改变了人们的生活方式,人与计算机之间的关系密不可分。如今语音合成在智能家居、智能机器人等交互领域得到了广泛应用。
[0003]但是目前的语音合成系统在训练过程中,一般都是以恢复音库中的原始语音为建模目标,示例如,通过最小化合成语音与原始语音的误差为损失函数来训练合成系统的模型参数。在这个过程中,音库中的原始语音是否是最符合人们听感的语音是存疑的。音库中的原始语音一般仅能够保证正确性,也即合成语音与文本内容是匹配的,但是原始语音仍可能存在发音瑕疵,示例如存在啸叫等问题,并且,在音色、韵律等方面也可能不符合用户的听感目标。在此情况下,按照现有的以恢复原始音库中语音为建模目标训练的语音合成系统,在真实语音合成场景下使用时,其合成的语音可能并不符合用户的听感目标,降低了语音合成的效果。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种语音合成方法、装置、设备及存储介质,以实现合成出更加满足用户听感的合成语音,提升语音合成效果的目标。具体方案如下:
[0005]第一方面,提供了一种语音合成方法,包括:
[0006]获取待合成语音的原始文本;
[0007]对所述原始文本进行文本分析,得到原始文本对应的音素序列;
[0008]将所述原始文本对应的音素序列输入配置的语音合成模型,得到模型输出的合成语音;
[0009]所述语音合成模型为,以对基础语音合成模型所合成的与输入测试文本对应的多条候选语音的评分结果作为奖励信号,对所述基础语音合成模型进行参数调整后的最终语音合成模型,其中,对各条候选语音的评分结果符合用户听感目标。
[0010]第二方面,提供了一种语音合成装置,包括:
[0011]原始文本获取单元,用于获取待合成语音的原始文本;
[0012]文本分析单元,用于对所述原始文本进行文本分析,得到原始文本对应的音素序列;
[0013]语音合成模型处理单元,用于将所述原始文本对应的音素序列输入配置的语音合成模型,得到模型输出的合成语音;所述语音合成模型为,以对基础语音合成模型所合成的与输入测试文本对应的多条候选语音的评分结果作为奖励信号,对所述基础语音合成模型
进行参数调整后的最终语音合成模型,其中,对各条候选语音的评分结果符合用户听感目标。
[0014]第三方面,提供了一种语音合成设备,包括:存储器和处理器;
[0015]所述存储器,用于存储程序;
[0016]所述处理器,用于执行所述程序,实现如前所述的语音合成方法的各个步骤。
[0017]第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前所述的语音合成方法的各个步骤。
[0018]借由上述技术方案,本申请预先训练了语音合成模型,该语音合成模型通过对基础语音合成模型进行参数更新调整得到,基础语音合成模型可以采用传统的训练方法得到,在对基础语音合成模型进行参数更新调整时,可以获取基础语音合成模型所合成的与输入测试文本对应的多条候选语音的评分结果,该评分结果符合用户的听感目标,在此基础上,以评分结果作为奖励信号,对基础语音合成模型进行参数更新调整。由上可知,本申请在语音合成模型的训练过程增加了用户听感的反馈信号(即作为奖励信号的评分结果),引导语音合成模型朝着更符合人类听感的方向去优化调整模型参数。在此基础上,对于待合成语音的原始文本,首先通过文本分析得到音素序列,进而将音素序列输入训练后的语音合成模型,得到模型输出的合成语音,该合成语音更加满足用户的听感目标,从而大大提升了语音合成效果。
附图说明
[0019]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0020]图1为本申请实施例提供的语音合成方法的一流程示意图;
[0021]图2示例了一种结构的基础语音合成模型进行语音合成的过程示意图;
[0022]图3示例了另一种结构的基础语音合成模型进行语音合成的过程示意图;
[0023]图4示例了一种语音合成模型的训练过程示意图;
[0024]图5示例了另一种语音合成模型的训练过程示意图;
[0025]图6为本申请实施例提供的一种语音合成装置结构示意图;
[0026]图7为本申请实施例提供的语音合成设备的结构示意图。
具体实施方式
[0027]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0028]本申请提供了一种语音合成方案,可以适用于各种需要进行语音合成的场景,示例如,手机、车载语音助手上的语音合成、智能家居、智能机器人上的语音合成等。进一步地,为了保证本申请语音合成的效果,提供了一种新的语音合成模型的训练方式,能够使得训练后的语音合成模型输出更加满足用户听感目标的语音,提升语音合成效果。
[0029]本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
[0030]接下来,结合图1所述,本申请的语音合成方法可以包括如下步骤:
[0031]步骤S100、获取待合成语音的原始文本。
[0032]具体地,在语音合成场景中,获取到需要进行语音合成的原始文本。
[0033]步骤S110、对所述原始文本进行文本分析,得到原始文本对应的音素序列。
[0034]具体地,文本分析的目的是将输入的原始文本转换为可以用于语音合成的符号序列,也即本步骤中的音素序列。
[0035]文本分析的过程可以包括如下几个子步骤:
[0036]S1、文本规整:将原始文本中的数字、缩写、货币等特殊表达转换为标准的文本形式。S2、分词:将标准形式的文本划分为单词、标点符号等基本单位。S3、韵律预测:根据输入的原始文本预测器停顿韵律特征,如L1、L2、L3、L4和/或L5韵律特征等。除此之外,还可以包括变调、多音字的预测。S4、字音转换:将分词后的每个基本单位转换为音素序列,即用音素表示发音,得到音素序列。
[0037]步骤S120、将所述原始文本对应的音素序列输入配置的语音合成模型,得到模型输出的合成语音,其中,语音合成模型以符合用户听感目标的各候选语音的评分结果作为奖励信号,对基础语音合成模型进行参数调整后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:获取待合成语音的原始文本;对所述原始文本进行文本分析,得到原始文本对应的音素序列;将所述原始文本对应的音素序列输入配置的语音合成模型,得到模型输出的合成语音;所述语音合成模型为,以对基础语音合成模型所合成的与输入测试文本对应的多条候选语音的评分结果作为奖励信号,对所述基础语音合成模型进行参数调整后的最终语音合成模型,其中,对各条候选语音的评分结果符合用户听感目标。2.根据权利要求1所述的方法,其特征在于,对各条候选语音评分的过程,采用配置的奖励模型实现;所述奖励模型以包含测试文本和对应的一条合成语音的文本语音对作为训练样本,以所述文本语音对中包含的合成语音的用户评分结果作为样本标签训练得到。3.根据权利要求1所述的方法,其特征在于,所述基础语音合成模型包括串连的声学模型及声码器,所述声学模型用于基于输入的音素序列得到声学特征,所述声码器用于将所述声学特征转换为音频信号,且所述声学模型和所述声码器分开建模;或,所述基础语音合成模型采用端到端建模方式。4.根据权利要求2所述的方法,其特征在于,所述语音合成模型的训练过程,包括:获取基础语音合成模型,所述基础语音合成模型以对测试文本所合成的语音趋近于音库中与所述测试文本对应的原始语音为目标训练得到;基于所述基础语音合成模型,针对第一测试集中每条测试文本通过采样解码的方式生成多条候选语音,得到每条测试文本对应的候选语音集合;获取用户对每条测试文本对应的候选语音集合中各条候选语音的评分结果,得到每条测试文本对应的携带有评分结果的候选语音集合;以每条测试文本对应的携带有评分结果的候选语音集合作为训练数据,训练奖励模型:采用训练后的奖励模型,对所述基础语音合成模型针对第二测试集中每条测试文本所合成的多条候选语音进行评分,并以各条候选语音的评分结果作为奖励信号,对所述基础语音合成模型进行参数调整,得到调整后的语音合成模型。5.根据权利要求4所述的方法,其特征在于,在得到调整后的语音合成模型之后,还包括:将调整后的语音合成模型更新为基础语音合成模型,并迭代执行所述语音合成模型的训练过程,直至达到设定迭代结束条件后,得到最终调整后的语音合成模型。6.根据权利要求4所述的方法,其特征在于,所述以各条候选...

【专利技术属性】
技术研发人员:方昕胡亚军潘嘉高建清刘聪
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1