语音合成方法、装置、终端设备及存储介质制造方法及图纸

技术编号:28298111 阅读:21 留言:0更新日期:2021-04-30 16:24
本申请适用于人工智能技术领域,提供了一种语音合成方法、装置、终端设备及存储介质,方法包括:通过预设编码器将待合成文本生成为字符嵌入序列;基于注意力机制,确定在每个时间步上的字符嵌入序列对应的注意力权重序列;通过预设解码器利用每个时间步上的字符嵌入序列与注意力权重序列,输出每个时间步对应的目标序列;对于每个时间步,通过预设的停止预测网络利用目标序列和字符嵌入序列确定合成停止标签,合成停止标签用于表征待合成文本的合成状态;若合成停止标签为预设值,则根据预设解码器输出的所有目标序列合成待合成文本对应的线性谱。本方法提高了语音合成效率的可控性。

【技术实现步骤摘要】
语音合成方法、装置、终端设备及存储介质
本申请涉及人工智能
,尤其涉及一种语音合成方法、装置、终端设备及计算机可读存储介质。
技术介绍
语音合成技术可以基于文本合成高质量音频,能够在诸多人机交互场景提升用户体验。目前,语音合成技术主要包括基于参数式的语音合成方法和基于深度学习的语音合成方法。其中基于参数式的语音合成方法所合成的音频质量较低,很容易与人类真实音频区别开来。而基于深度学习的语音合成方法可以合成非常高质量的音频,但是由于待合成语音的长度不一定,通常不能很好地预测待合成语音的停止时间。例如在合成较长语音片段时,在合成过程应该停止的时候,却可能出现发出随机的声音,或者是产生一长段静音片段的情况。可见,当前的语音合成方法存在合成效果不可控的问题。
技术实现思路
有鉴于此,本申请实施例提供了一种语音合成方法、装置、终端设备及计算机可读存储介质,以解决现有技术中语音合成方法存在合成效果不可控的问题。本申请实施例的第一方面提供了一种语音合成方法,包括:通过预设编码器将待合成文本生成为字符嵌入序列;基于注意力机制,确定在每个时间步上的所述字符嵌入序列对应的注意力权重序列;通过预设解码器利用每个所述时间步上的所述字符嵌入序列与所述注意力权重序列,输出每个所述时间步对应的目标序列;对于每个时间步,通过预设的停止预测网络利用所述目标序列和所述字符嵌入序列确定合成停止标签,所述合成停止标签用于表征所述待合成文本的合成状态;若所述合成停止标签为预设值,则根据所述预设解码器输出的所有目标序列合成所述待合成文本对应的线性谱。本申请实施例的第二方面提供了一种语音合成装置,包括:生成模块,用于通过预设编码器将待合成文本生成为字符嵌入序列;第一确定模块,用于基于注意力机制,确定在每个时间步上的所述字符嵌入序列对应的注意力权重序列;第一输出模块,用于通过预设解码器利用每个所述时间步上的所述字符嵌入序列与所述注意力权重序列,输出每个所述时间步对应的目标序列;第二确定模块,用于对于每个时间步,通过预设的停止预测网络利用所述目标序列和所述字符嵌入序列确定合成停止标签,所述合成停止标签用于表征所述待合成文本的合成状态;第二输出模块,用于若所述合成停止标签为预设值,则根据所述预设解码器输出的所有目标序列合成所述待合成文本对应的线性谱。本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的语音合成方法的各步骤。本申请实施例的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的语音合成方法的各步骤。实施本申请实施例提供的一种语音合成方法、语音合成装置、终端设备及计算机可读存储介质具有以下有益效果:本申请实施例提供的一种语音合成方法,基于机器学习合成与人类高度相似的语音,提高语音合成质量。具体地,通过预设编码器将待合成文本生成为字符嵌入序列,并基于注意力机制,确定在每个时间步上的所述字符嵌入序列对应的注意力权重序列,再通过预设解码器利用每个所述时间步上的所述字符嵌入序列与所述注意力权重序列,输出每个所述时间步对应的目标序列,从而获得seq2seq中decoder的信息以及前面时刻注意力所集中到的位置信息;然后对于每个时间步,通过预设的停止预测网络利用所述目标序列和所述字符嵌入序列确定合成停止标签,停止预测网络利用了seq2seq中decoder的信息以及前面时刻注意力所集中到的位置信息,可以有效地判断seq2seq模型应该在何时停止输出,从而不会存在模型不能正常停止的情况;最后若所述合成停止标签为预设值,则根据所述预设解码器输出的所有目标序列合成所述待合成文本对应的线性谱。与现有的端到端的语音合成方法相比,能够更加准确的确定语音合成的停止时间,从而使语音合成效果更加可控。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种语音合成方法的实现流程图;图2是本申请另一实施例提供的一种语音合成方法的实现流程图;图3是本申请实施例提供的一种语音合成装置的结构框图;图4是本申请实施例提供的一种终端设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。在相关技术中,语音合成技术主要包括基于参数式的语音合成方法和基于深度学习的语音合成方法。其中基于参数式的语音合成方法所合成的音频质量较低,很容易与人类真实音频区别开来。而基于深度学习的语音合成方法可以合成非常高质量的音频,但是由于待合成语音的长度不一定,通常不能很好地预测待合成语音的停止时间。例如在合成较长语音片段时,在合成过程应该停止的时候,却可能出现发出随机的声音,或者是产生一长段静音片段的情况。可见,当前的语音合成方法存在合成效果不可控的问题。有鉴于此,本申请实施例提供一种语言合成方法,基于机器学习合成与人类高度相似的语音,提高语音合成质量。具体地,通过预设编码器将待合成文本生成为字符嵌入序列,并基于注意力机制,确定在每个时间步上的所述字符嵌入序列对应的注意力权重序列,再通过预设解码器利用每个所述时间步上的所述字符嵌入序列与所述注意力权重序列,输出每个所述时间步对应的目标序列,从而获得seq2seq中decoder的信息以及前面时刻注意力所集中到的位置信息;然后对于每个时间步,通过预设的停止预测网络利用所述目标序列和所述字符嵌入序列确定合成停止标签,停止预本文档来自技高网...

【技术保护点】
1.一种语音合成方法,其特征在于,包括:/n通过预设编码器将待合成文本生成为字符嵌入序列;/n基于注意力机制,确定在每个时间步上的所述字符嵌入序列对应的注意力权重序列;/n通过预设解码器利用每个所述时间步上的所述字符嵌入序列与所述注意力权重序列,输出每个所述时间步对应的目标序列;/n对于每个时间步,通过预设的停止预测网络利用所述目标序列和所述字符嵌入序列确定合成停止标签,所述合成停止标签用于表征所述待合成文本的合成状态;/n若所述合成停止标签为预设值,则根据所述预设解码器输出的所有目标序列合成所述待合成文本对应的线性谱。/n

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:
通过预设编码器将待合成文本生成为字符嵌入序列;
基于注意力机制,确定在每个时间步上的所述字符嵌入序列对应的注意力权重序列;
通过预设解码器利用每个所述时间步上的所述字符嵌入序列与所述注意力权重序列,输出每个所述时间步对应的目标序列;
对于每个时间步,通过预设的停止预测网络利用所述目标序列和所述字符嵌入序列确定合成停止标签,所述合成停止标签用于表征所述待合成文本的合成状态;
若所述合成停止标签为预设值,则根据所述预设解码器输出的所有目标序列合成所述待合成文本对应的线性谱。


2.根据权利要求1所述的语音合成方法,其特征在于,所述通过预设编码器将待合成文本生成为字符嵌入序列,包括:
获取所述待合成文本,将所述待合成文本生成为字符嵌入向量;
通过预设编码器将所述字符嵌入向量编码为字符嵌入序列。


3.根据权利要求1所述的语音合成方法,其特征在于,所述通过预设解码器利用每个所述时间步上的所述字符嵌入序列与所述注意力权重序列,输出每个所述时间步对应的目标序列,包括:
在每个所述时间步上,通过所述预设解码器利用所述字符嵌入序列中的每个序列位置,以及所述序列位置对应的权重值进行点乘,得到多个乘积结果;
将多个所述乘积结果进行求和,并将求和结果作为所述时间步对应的目标序列。


4.根据权利要求1所述的语音合成方法,其特征在于,对于每个时间步,通过预设的停止预测网络利用所述目标序列和所述字符嵌入序列确定合成停止标签,包括:
对于每个所述时间步,确定所述注意力权重序列中若干个最大权重值对应在所述字符嵌入序列中的若干个位置序列,与所述字符嵌入序列的最后一个位置序列之间的相对位置序列;
根据所述时间步的时刻,通过预设的停止预测网络利用所述目标序列和所述相对位置序列确定合成停止标签。


5.根据权利要求4述的语音合成方法,其特征在于,所述根据所述时间步的步数,通过预设的停止预测网络利用所述目标序列和所述相对位置序列确定合成停止标签,包括:
若所述时间步的时刻不大于预设时刻,则将所述时间步之前的n个时刻的所述...

【专利技术属性】
技术研发人员:梁爽缪陈峰马骏王少军
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1