一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质制造方法及图纸

技术编号：35191871 阅读：16 留言：0更新日期：2022-10-12 18:13

本发明专利技术公开了一种具有自然停顿处理的语音合成方法，包括如下步骤：从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；根据所述输入信息提取第一隐层特征变量；根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；根据所述第二隐层特征变量进行解码得到梅尔频谱变量；根据所述梅尔频谱变量合成与所述原始文本对应的语音。本发明专利技术还公开了一种具有自然停顿处理的语音合成装置、电子设备及计算机可读介质。本发明专利技术能解决现有技术中合成语音停顿位置不明显、节奏单调生硬等问题。生硬等问题。生硬等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质

[0001]本专利技术属于语音合成
，具体涉及一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质。

技术介绍

[0002]随着深度学习的发展，基于神经网络的语音合成(TTS)系统已经取得了突破性进展和应用，其广泛应用于虚拟助手、智能阅读、智能导航等领域。普通话作为中国的官方语言，具有重要的研究和应用价值。但由于中文语句结构的复杂和多样性，普通话的语音合成在自然度和表现力上仍然不够理想，尤其是话语中的停顿处理是影响语音自然度和语义理解的关键之一。
[0003]语句的停顿可分为两种方式，一种是语句与语句之间的停顿，现代汉语中主要采用显式的不同标点符号进行语句之间的划分，不同的标点符号表示的停顿时间长短不一致，例如，顿号、逗号、句号表示的停顿时间依次变长，短句间停顿间隔的长短可以体现语句的节奏，对语音自然度有重要影响；另一种是语句内部短语之间的停顿，由于短语之间没有显式的符号标记，因此需要通过一些自然语言处理相关技术标记特征，使TTS模型能够学习到停顿位置与时长。
[0004]现有技术中，对于语句与语句之间的标点符号，或者语句内的标点符号，现有的语音合成模型中，对标点符号的处理方式通常采用全局相同的单一标签对标点符号进行标记，然后与数据输入TTS模型进行训练，以实现合成语音在标点符号处的停顿。然而这样无法体现在自然语言中不同标点符号停顿时长不同的特点，合成的普通话语音节奏单调生硬。

技术实现思路

[00...

【技术保护点】

【技术特征摘要】
1.一种具有自然停顿处理的语音合成方法，其特征在于，包括如下步骤：从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息；所述标点符号标记，由所述原始文本中不同的标号和点号分别标记为不同标签而形成；根据所述输入信息提取第一隐层特征变量；根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量；根据所述第二隐层特征变量进行解码得到梅尔频谱变量；根据所述梅尔频谱变量合成与所述原始文本对应的语音。2.根据权利要求1所述的一种具有自然停顿处理的语音合成方法，其特征在于，所述从原始文本中提取标点符号标记、词性标记、字标记及音素序列，分别进行编码后融合为输入信息，包括如下步骤：对所述原始文本提取标点符号标记并转换为嵌入向量；对所述原始文本提取词性标记并转换为嵌入向量；对所述原始文本提取字标记并转换为嵌入向量；将所述原始文本中的汉字和数字转换为音素并编码为文本序列；将所述标点符号标记、词性标记及字标记对应的嵌入向量与所述文本序列融合，得到所述输入信息。3.根据权利要求1或2所述的一种具有自然停顿处理的语音合成方法，其特征在于：所述字标记，是由所述原始文本中每个字按音素拆分并依顺序标记形成。4.根据权利要求1所述的一种具有自然停顿处理的语音合成方法，其特征在于，所述根据所述输入信息提取第一隐层特征变量，包括如下步骤：根据多头注意力机制对所述输入信息的上下文信息进行编码，并进行残差连接及正则化处理；通过多个不同尺寸的卷积核对不同长度的短语特征进行提取并融合为隐层特征，并进行残差连接及正则化处理，得到所述第一隐层特征变量。5.根据权利要求1所述的一种具有自然停顿处理的语音合成方法，其特征在于，所述根据所述第一隐层特征变量进行音素时长预测、能量预测及音高预测，融合得到第二隐层特征变量，包括如下步骤：根据所述第一隐层特征变量进行音素时长预测，获得每个音素的时长信息并通过长度调节器进行残差融合；进行能量预测，获得每个音素的音...

【专利技术属性】
技术研发人员：高英，蒋成龙，甄泓忠，吴永贤，钟竞辉，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人