语音合成方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号：37591125 阅读：7 留言：0更新日期：2023-05-18 11:25

本说明书实施例提供了一种语音合成方法、装置、电子设备及计算机可读存储介质，其中，语音合成方法基于包括N个卷积模块和N个转置卷积模块的解码器对可变声学特征进行解码操作，即利用N个卷积和转置卷积操作实现解码过程，在对可变声学特征进行多方位学习，保证语音合成频谱质量的基础上，简化了解码操作的时间复杂度，提升了可变声学特征的解码速度，提高了语音合成的响应速度。同时，该语音合成方法在卷积处理之后加入了条带池化操作，可以学习基频和谐波之间的关系，使得基于获得的语音合成频谱生成的合成语音的音色更贴近真实人声，有利于提高语音合成方法合成语音的保真度。利于提高语音合成方法合成语音的保真度。利于提高语音合成方法合成语音的保真度。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及计算机可读存储介质

[0001]本说明书涉及深度学习
的语音合成技术，更具体地说，涉及一种语音合成方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着计算机技术和人工智能网络的发展，语音合成(也称为文语转换，Text
‑
to
‑
Speech，TTS)技术在近些年来得到了快速提升，被愈发广泛的应用于人类生活的各个领域。语音合成多样化的应用为日常生活提供了极大的便利，同时也丰富了多媒体技术带来的观感。比如，基于语音合成的阅读辅助不仅仅使视障人士能够阅读更加广泛的文字材料，也给普通人提供了更多的阅读场景。再如，基于语音合成的虚拟形象能够利用精简的发音数据库模拟逼真的人声，为游戏娱乐、增强现实和虚拟现实等领域提供更为泛用的技术。
[0003]语音合成系统主要功能是将文本转换为语音。常见的语音合成系统包含三个模块：文本前端、声学模块和声码器。其中，文本前端主要用于对文本进行语义和语言学分析，声学模块主要用于对声学特征进行建模与预测，而声码器主要用于将声学特征转换为最终的语音波形信号。近年来，在深度学习技术发展的推动下，基于端到端的声学模型(例如Tacotron、Fastspeech等)逐渐被广泛应用于语音合成系统，使得句子级别的合成语音在音质等方面得到了大幅的提升，获得了较好的用户体验。
[0004]基于语音合成的上述重要性，如何高效、高保真度的进行语音合成成为语音合成领域目前重点研究方向之一。

技术实现思路
/>[0005]为解决上述技术问题，本申请提供了一种语音合成方法、装置、电子设备及计算机可读存储介质，实现了提高语音合成速度，改善语音合成保真度的目的。
[0006]为实现上述技术目的，本申请实施例提供了如下技术方案：
[0007]第一方面，本说明书实施例提供了一种语音合成方法，包括：
[0008]获取待合成文本以及语音合成模型，所述语音合成模型包括声学特征提取模块和解码器；所述解码器包括N个卷积模块和N个转置卷积层；N为大于1的整数；
[0009]通过所述声学特征提取模块对所述待合成文本进行声学特征提取处理，得到可变声学特征；
[0010]利用所述解码器中N个卷积模块依次对所述可变声特征进行卷积处理，得到卷积结果，并利用所述解码器中N个转置卷积层依次基于所述卷积结果进行转置卷积处理，得到语音合成频谱；
[0011]将所述语音合成频谱映射为声音波形，得到所述待合成文本对应的合成语音。
[0012]第二方面，本说明书实施例提供了一种语音合成装置，其特征在于，包括：
[0013]获取模块，用于获取待合成文本以及语音合成模型，所述语音合成模型包括声学特征提取模块和解码器；所述解码器包括N个卷积模块和N个转置卷积层；N为大于1的整数；
[0014]所述获取模块，还用于通过所述声学特征提取模块对所述待合成文本进行声学特征提取处理，得到可变声学特征；
[0015]处理模块，用于利用所述解码器中N个卷积模块依次对所述可变声特征进行卷积处理，得到卷积结果，并利用所述解码器中N个转置卷积层依次基于所述卷积结果进行转置卷积处理，得到语音合成频谱；
[0016]合成模块，用于将所述语音合成频谱映射为声音波形，得到所述待合成文本对应的合成语音。
[0017]第三方面，本说明书实施例提供了一种电子设备，包括：处理器和存储器；
[0018]其中，所述存储器与所述处理器连接，所述存储器用于存储计算机程序；
[0019]所述处理器，用于通过运行所述存储器中存储的计算机程序，实现如上述语音合成方法。
[0020]第四方面，本说明书实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如上述的语音合成方法。
[0021]第五方面，本说明书实施例提供了一种计算机程序产品或计算机程序，所述计算机程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中；所述计算机设备的处理器从所述计算机可读存储介质读取所述计算机程序，所述处理器执行所述计算机程序时实现上述的语音合成方法的步骤。
[0022]从上述技术方案可以看出，本申请实施例提供了一种语音合成方法、装置、电子设备及计算机可读存储介质，其中，所述语音合成方法基于包括N个卷积模块和N个转置卷积模块的解码器对可变声学特征进行解码操作，即利用N个卷积和N个转置卷积操作实现解码过程，在对可变声学特征进行多方位学习，保证语音合成频谱质量、得到高保真语音的基础上，简化了解码操作的时间复杂度，提升了可变声学特征的解码速度，提高了语音合成的响应速度。
附图说明
[0023]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0024]图1为本说明书的一个实施例提供的一种FastSpeech2模型的网络结构；
[0025]图2为本说明书的一个实施例提供的一种FastSpeech2模型中使用的Encoder和Decoder的网络结构；
[0026]图3为本说明书的一个实施例提供的一种多头注意力机制Multi
‑
head attention注意力机制的网络结构示意图
[0027]图4为本说明书的一个实施例提供的一种实施环境的示意图；
[0028]图5为本说明书的另一个实施例提供的一种实施环境的示意图；
[0029]图6为本说明书的一个实施例提供的一种语音合成方法的流程示意图；
[0030]图7为本说明书的一个实施例提供的一种解码器的结构示意图；
[0031]图8为本说明书的一个实施例提供的一种卷积层和转置卷积层的结构示意图；
[0032]图9为本说明书的一个实施例提供的另一种解码器的结构示意图；
[0033]图10为本说明书的一个实施例提供的一种声音波形的示意图；
[0034]图11为本说明书的一个实施例提供的一种语音合成装置的结构示意图；
[0035]图12为本说明书的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0036]除非另外定义，本说明书实施例使用的技术术语或者科学术语应当为本说明书所属领域内具有一般技能的人士所理解的通常意义。本说明书实施例使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来避免构成要素的混同而设置的。
[0037]除非上下文另有要求，否则，在整个说明书中，“多个”表示“至少两个”，“包括”被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一个实施例”、“一些实施例”、“示例性实施例”、“示例”、“特定示本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待合成文本以及语音合成模型，所述语音合成模型包括声学特征提取模块和解码器；所述解码器包括N个卷积模块和N个转置卷积层；N为大于1的整数；通过所述声学特征提取模块对所述待合成文本进行声学特征提取处理，得到可变声学特征；利用所述解码器中N个卷积模块依次对所述可变声特征进行卷积处理，得到卷积结果，并利用所述解码器中N个转置卷积层依次基于所述卷积结果进行转置卷积处理，得到语音合成频谱；将所述语音合成频谱映射为声音波形，得到所述待合成文本对应的合成语音。2.根据权利要求1所述的方法，其特征在于，所述N个卷积模块包括N个卷积层和N个条带池化层，一个卷积层对应一个条带池化层，每个卷积层对应的条带池化层用于对相应卷积层的输出进行条带池化处理；所述利用所述解码器中N个卷积模块依次对所述可变声学特征进行卷积处理，得到卷积结果，包括：利用所述N个卷积层和N个条带池化层对所述可变声学特征进行N次卷积和N次条带池化处理，得到所述卷积结果。3.根据权利要求2所述的方法，其特征在于，所述卷积结果包括所述可变声学特征对应的粗粒度特征信息以及谐波和基频之间的关系信息；所述利用所述N个卷积层和N个条带池化层对所述可变声学特征进行N次卷积和N次条带池化处理，得到所述卷积结果，包括：利用所述N个卷积模块中第i个卷积层基于所述第i个卷积层的输入进行粗粒度特征信息提取；其中，如果i等于1，则所述第i个卷积层的输入为所述可变声学特征；如果i大于1，则所述第i个卷积层的输入是基于所述第i
‑
1个卷积层对应的第i
‑
1个条带池化层的输出确定的；通过所述第i个卷积层对应的第i个条带池化层对所述第i个卷积层的输出进行条带池化处理；若所述i等于N，则将所述第i个条带池化层的输出作为所述谐波和基频之间的关系信息，以及将所述第i个卷积层的输出作为所述可变声学特征的粗粒度特征信息；若所述i小于N，则对i执行加1运算，并将运算结果赋值给i，触发执行利用所述N个卷积模块中第i个卷积层基于所述第i个卷积层的输入进行粗粒度特征信息提取及其后续步骤。4.根据权利要求2所述的方法，其特征在于，所述利用所述解码器中N个转置卷积层依次基于所述卷积结果进行转置卷积处理，得到语音合成频谱，包括：利用所述N个转置卷积层依次基于所述卷积结果进行转置卷积运算，提取所述可变声学特征中的细粒度特征信息；基于所述细粒度特征信息生成语音合成频谱。5.根据权利要求4所述的方法，其特征在于，所述利用所述N个转置卷积层依次基于所述卷积结果进行转置卷积运算，提取所述可变声学特征中的细粒度特征信息，包括：利用所述N个转置卷积层中第i个转置卷积层基于所述第i个转置卷积层的输入进行细粒度特征信息提取；其中，如果i等于1，则所述第i个转置卷积层的输入为所述卷积结果；如
果i大于1，则所述第i个转置卷积层的输入是...

【专利技术属性】
技术研发人员：刘鹏飞，蒋宁，吴海英，刘敏，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人