一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号:35191871 阅读:16 留言:0更新日期:2022-10-12 18:13
本发明专利技术公开了一种具有自然停顿处理的语音合成方法,包括如下步骤:从原始文本中提取标点符号标记、词性标记、字标记及音素序列,分别进行编码后融合为输入信息;所述标点符号标记,由所述原始文本中不同的标号和点号分别标记为不同标签而形成;根据所述输入信息提取第一隐层特征变量;根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测,融合得到第二隐层特征变量;根据所述第二隐层特征变量进行解码得到梅尔频谱变量;根据所述梅尔频谱变量合成与所述原始文本对应的语音。本发明专利技术还公开了一种具有自然停顿处理的语音合成装置、电子设备及计算机可读介质。本发明专利技术能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题。生硬等问题。生硬等问题。

【技术实现步骤摘要】
一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质


[0001]本专利技术属于语音合成
,具体涉及一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]随着深度学习的发展,基于神经网络的语音合成(TTS)系统已经取得了突破性进展和应用,其广泛应用于虚拟助手、智能阅读、智能导航等领域。普通话作为中国的官方语言,具有重要的研究和应用价值。但由于中文语句结构的复杂和多样性,普通话的语音合成在自然度和表现力上仍然不够理想,尤其是话语中的停顿处理是影响语音自然度和语义理解的关键之一。
[0003]语句的停顿可分为两种方式,一种是语句与语句之间的停顿,现代汉语中主要采用显式的不同标点符号进行语句之间的划分,不同的标点符号表示的停顿时间长短不一致,例如,顿号、逗号、句号表示的停顿时间依次变长,短句间停顿间隔的长短可以体现语句的节奏,对语音自然度有重要影响;另一种是语句内部短语之间的停顿,由于短语之间没有显式的符号标记,因此需要通过一些自然语言处理相关技术标记特征,使TTS模型能够学习到停顿位置与时长。
[0004]现有技术中,对于语句与语句之间的标点符号,或者语句内的标点符号,现有的语音合成模型中,对标点符号的处理方式通常采用全局相同的单一标签对标点符号进行标记,然后与数据输入TTS模型进行训练,以实现合成语音在标点符号处的停顿。然而这样无法体现在自然语言中不同标点符号停顿时长不同的特点,合成的普通话语音节奏单调生硬。

技术实现思路

[0005]针对现有技术中所存在的不足,本专利技术提供了一种能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题的具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质。
[0006]第一方面,一种具有自然停顿处理的语音合成方法,包括如下步骤:
[0007]从原始文本中提取标点符号标记、词性标记、字标记及音素序列,分别进行编码后融合为输入信息;所述标点符号标记,由所述原始文本中不同的标号和点号分别标记为不同标签而形成;
[0008]根据所述输入信息提取第一隐层特征变量;
[0009]根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测,融合得到第二隐层特征变量;
[0010]根据所述第二隐层特征变量进行解码得到梅尔频谱变量;
[0011]根据所述梅尔频谱变量合成与所述原始文本对应的语音。
[0012]作为优选方案,所述从原始文本中提取标点符号标记、词性标记、字标记及音素序列,分别进行编码后融合为输入信息,包括如下步骤:
[0013]对所述原始文本提取标点符号标记并转换为嵌入向量;
[0014]对所述原始文本提取词性标记并转换为嵌入向量;
[0015]对所述原始文本提取字标记并转换为嵌入向量;
[0016]将所述原始文本中的汉字和数字转换为音素并编码为文本序列;
[0017]将所述标点符号标记、词性标记及字标记对应的嵌入向量与所述文本序列融合,得到所述输入信息。
[0018]作为优选方案,所述字标记,是由所述原始文本中每个字按音素拆分并依顺序标记形成。
[0019]作为优选方案,所述根据所述输入信息提取第一隐层特征变量,包括如下步骤:
[0020]根据多头注意力机制对所述输入信息的上下文信息进行编码,并进行残差连接及正则化处理;
[0021]通过多个不同尺寸的卷积核对不同长度的短语特征进行提取并融合为隐层特征,并进行残差连接及正则化处理,得到所述第一隐层特征变量。
[0022]作为优选方案,所述根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测,融合得到第二隐层特征变量,包括如下步骤:
[0023]根据所述第一隐层特征变量进行音素时长预测,获得每个音素的时长信息并通过长度调节器进行残差融合;
[0024]进行能量预测,获得每个音素的音量信息并进行残差融合;
[0025]进行音高预测,获得每个音素的音高信息并进行残差融合。
[0026]作为优选方案,在所述根据所述输入信息提取第一隐层特征变量之后,还包括如下步骤:
[0027]根据所述第一隐层特征变量进行短语时长预测,获得每个短语的时长信息;
[0028]根据所述音素时长预测模块预测的短语内各音素时长之和与所述短语时长预测模块预测的短语时长计算损失。
[0029]作为优选方案,所述根据所述第二隐层特征变量进行解码得到梅尔频谱变量,包括如下步骤:
[0030]根据多头注意力机制对所述第二隐层特征变量进行编码,并进行残差连接及正则化处理;
[0031]通过多个不同尺寸的卷积核对不同长度的声学特征进行提取并融合为隐层特征,并进行残差连接及正则化处理,得到对应的梅尔频谱变量。
[0032]第二方面,一种具有自然停顿处理的语音合成装置,包括:
[0033]前端处理模块,用于从原始文本中提取标点符号标记、词性标记、字标记及音素序列,分别进行编码后融合为输入信息;
[0034]编码器模块,用于根据所述输入信息提取第一隐层特征变量;
[0035]变量预测模块,用于根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测,融合得到第二隐层特征变量;
[0036]解码器模块,用于根据所述第二隐层特征变量进行解码得到梅尔频谱变量;
[0037]声码器模块,用于根据所述梅尔频谱变量合成与所述原始文本对应的语音。
[0038]第三方面,一种电子设备,包括:
[0039]一个或多个处理器;
[0040]存储装置,其上存储有一个或多个程序;
[0041]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述任意一种具有自然停顿处理的语音合成方法。
[0042]第四方面,一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如第一方面所述任意一种具有自然停顿处理的语音合成方法。
[0043]相比于现有技术,本专利技术具有如下有益效果:
[0044]1、通过对标点符号中不同点号和标号分别标记为不同的标签,并结合隐式的词性标记、字标记,在融合后提取隐层特征,再融合音素时长、能量和音高等信息,建立了一个具有自然停顿处理的普通话TTS系统,本实施例可有效解决普通话合成语音中停顿位置不明显、全局停顿时长单一的问题;
[0045]2、通过在编码和解码过程中采用多头注意力机制结合多尺度卷积的方式,可更有效地利用文字的局部特征,实现文本中从字到词、短语、句子和段落层级特征提取,有效提高短语间的自然停顿效果;
[0046]3、通过在变量预测中音素时长预测结合能量预测及音高预测,可进一步提高语音的合成效果;
[0047]4、通过在变量预测中加入短语时长预测以与音素时长预测建立误差矫正机制,可以有效提升模型对短语预测时长的准确性,提高了模型预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具有自然停顿处理的语音合成方法,其特征在于,包括如下步骤:从原始文本中提取标点符号标记、词性标记、字标记及音素序列,分别进行编码后融合为输入信息;所述标点符号标记,由所述原始文本中不同的标号和点号分别标记为不同标签而形成;根据所述输入信息提取第一隐层特征变量;根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测,融合得到第二隐层特征变量;根据所述第二隐层特征变量进行解码得到梅尔频谱变量;根据所述梅尔频谱变量合成与所述原始文本对应的语音。2.根据权利要求1所述的一种具有自然停顿处理的语音合成方法,其特征在于,所述从原始文本中提取标点符号标记、词性标记、字标记及音素序列,分别进行编码后融合为输入信息,包括如下步骤:对所述原始文本提取标点符号标记并转换为嵌入向量;对所述原始文本提取词性标记并转换为嵌入向量;对所述原始文本提取字标记并转换为嵌入向量;将所述原始文本中的汉字和数字转换为音素并编码为文本序列;将所述标点符号标记、词性标记及字标记对应的嵌入向量与所述文本序列融合,得到所述输入信息。3.根据权利要求1或2所述的一种具有自然停顿处理的语音合成方法,其特征在于:所述字标记,是由所述原始文本中每个字按音素拆分并依顺序标记形成。4.根据权利要求1所述的一种具有自然停顿处理的语音合成方法,其特征在于,所述根据所述输入信息提取第一隐层特征变量,包括如下步骤:根据多头注意力机制对所述输入信息的上下文信息进行编码,并进行残差连接及正则化处理;通过多个不同尺寸的卷积核对不同长度的短语特征进行提取并融合为隐层特征,并进行残差连接及正则化处理,得到所述第一隐层特征变量。5.根据权利要求1所述的一种具有自然停顿处理的语音合成方法,其特征在于,所述根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测,融合得到第二隐层特征变量,包括如下步骤:根据所述第一隐层特征变量进行音素时长预测,获得每个音素的时长信息并通过长度调节器进行残差融合;进行能量预测,获得每个音素的音...

【专利技术属性】
技术研发人员:高英蒋成龙甄泓忠吴永贤钟竞辉
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1