语音合成方法技术

技术编号：39575634 阅读：6 留言：0更新日期：2023-12-03 19:27

本申请实施例公开一种语音合成方法

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、电子设备及存储介质

[0001]本申请涉及人工智能
，具体涉及一种语音合成方法
、
装置
、
电子设备及存储介质
。

技术介绍

[0002]目前，语音语调的调整一般是将
TTS(Text To Speech
，从文本到语音
)
模型生成的合成语音的音素时长和基频，与目标语音的音素时长和基频进行比较，再通过调整每个音素的时长和基频来实现语音语调的调整，这种方法虽然可以精确地调整合成语音的每个音素的语调，但需要大量的人工干预，效率较低
。
另外，还可以通过将
TTS
模型生成语音的语音信号与目标语音的语音信号进行比较，然后通过对生成语音的基频
、
音量
、
音色等参数进行全局调整来实现语音语调的调整
。
这种方法的虽然可以快速地调整整个语音信号的语调，但是调整效果相对较粗糙，可能会影响语音的自然度和流畅度
。

技术实现思路

[0003]本申请实施例公开了一种语音合成方法
、
装置
、
电子设备及存储介质，能够提高对合成语音的调整效率，同时也提高了合成语音的自然度和流畅度
。
[0004]本申请实施例公开一种语音合成方法，所述方法包括：
[0005]获取原始文本；
[0006]通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应...

【技术保护点】

【技术特征摘要】
1.
一种语音合成方法，其特征在于，所述方法包括：获取原始文本；通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量；其中，所述语音模型包括前端模块
、
语音合成
TTS
模型及后端模块，所述前端模块用于基于多头注意力机制提取所述原始文本对应的至少一种语音特征，所述
TTS
模型用于生成所述原始文本对应的初始频谱向量，所述后端模块用于将所述至少一种语音特征及所述初始频谱向量进行融合，得到目标频谱向量；根据所述目标频谱向量生成目标语音
。2.
根据权利要求1所述的方法，其特征在于，在所述通过训练得到的语音模型提取所述原始文本的语音特征之前，所述方法还包括：对所述原始文本进行拼音转化操作，以确定所述原始文本对应的音素序列；所述通过训练得到的语音模型提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量，包括：将所述音素序列输入训练得到的语音模型，通过所述语音模型根据所述音素序列提取所述原始文本的语音特征，并根据所述语音特征对所述原始文本对应的初始频谱向量进行优化，得到目标频谱向量
。3.
根据权利要求2所述的方法，其特征在于，所述原始文本对应的至少一种语音特征，包括：时长特征
、
韵律特征以及高音特征中的一种或多种，所述时长特征用于指示所述原始文本的每个音素进行发音时所需的时间长度，所述韵律特征用于指示所述原始文本的相邻两个音素进行发音时的时间间隔，所述高音特征用于指示所述原始文本的每个音素进行发音时声波的频率
。4.
根据权利要求3所述的方法，其特征在于，所述前端模块包括时长特征生成单元
、
韵律特征生成单元以及高音特征生成单元，所述时长特征生成单元用于提取时长特征，所述韵律特征生成单元用于提取韵律特征，所述高音特征生成单元用于提取高音特征；所述基于多头注意力机制提取所述原始文本对应的语音特征，包括：根据所述音素序列生成音素向量；基于多头注意力机制，通过目标特征生成单元对所述音素向量进行多头注意力计算，得到多个注意力向量，对所述多个注意力向量进行拼接，得到多头注意力向量，并根据所述多头注意力向量，生成所述目标特征生成单元对应的目标语音特征；所述目标特征生成单元为所述时长特征生成单元
、
韵律特征生成单元以及高音特征生成单元中的任意一个
。5.
根据权利要求4所述的方法，其特征在于，所述目标特征生成模块包括多层神经网络；所述基于多头注意力机制，通过目标特征生成单元对所述音素向量进行多头注意力计算，得到多个注意力向量，对所述多个注意力向量进行拼接，得到多头注意力向量，并根据所述多头注意力向量，生成所述目标特征生成单元对应的目标语音特征，包括：将所述音素向量作为输入到第一层神经网络的目标特征向量，通过当前层的神经网络对输入的目标特征向量进行多头注意力计算，得到多个注意力向量，并对所述多...

【专利技术属性】
技术研发人员：吕召彪，赵文博，许程冲，肖清，
申请(专利权)人：联通广东产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人