一种语音合成方法、装置、终端设备及存储介质制造方法及图纸

技术编号：32808529 阅读：29 留言：0更新日期：2022-03-26 20:02

本申请适用于数据处理技术领域，提供了一种语音合成方法、装置、终端设备及存储介质，该方法包括：先获取待处理文本的声学特征，利用并行计算模型对所述声学特征进行处理，得到所述待处理文本的第一音频信息，第一音频信息包括各个采样时刻对应的音频；利用串行计算模型对所述声学特征和所述第一音频信息进行处理，得到所述各个采样时刻对应的音频的残差值；基于第一音频信息和各个采样时刻对应的残差值，得到待处理文本的合成音频。本申请先利用并行计算模型对文本进行处理，再利用串行计算模型对第一音频信息进行处理，得到残差值，利用残差值和第一音频信息得到最终的音频信息，本申请对文本的处理过程更快速，保证合成音频信息的质量。的质量。的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法、装置、终端设备及存储介质

[0001]本申请属于数据处理
，尤其涉及一种语音合成方法、装置、终端设备及存储介质。

技术介绍

[0002]语音合成是通过机械的、电子的方法产生人造语音的技术。语音合成是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的语音信息输出的技术。
[0003]目前，多采用自回归式的模型或非自回归式的模型进行语音合成。非自回归式的模型合成语音时的速度快，但是合成的音频质量差。自回归式的模型合成的音频质量虽然比非自回归式的模型合成的音频质量高，但是自回归式的模型合成语音时的速度比非自回归式的模型合成语音时的速度慢。因此，需要一种速度快、且音频质量高的语音合成方法。

技术实现思路

[0004]本申请实施例提供了一种语音合成方法、装置、终端设备及存储介质，可以解决语音合成速度慢、音频质量差的问题。
[0005]第一方面，本申请实施例提供了一种语音合成方法，包括：
[0006]获取待处理文本的声学特征；
[0007]利用并行计...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取待处理文本的声学特征；利用并行计算模型对所述声学特征进行处理，得到所述待处理文本的第一音频信息，其中，所述第一音频信息包括各个采样时刻对应的音频；利用串行计算模型对所述声学特征和所述第一音频信息进行处理，得到所述各个采样时刻对应的第一音频信息的残差值；基于第i个采样时刻对应的第一音频信息和所述第i个采样时刻对应的残差值，得到所述第i个采样时刻对应的第二音频信息，所述待处理文本的合成音频包括各个第二音频信息，其中，i＝1，2
……
n，n为所述采样时刻的总个数。2.如权利要求1所述的语音合成方法，其特征在于，在所述获取待处理文本的声学特征之后，包括：对所述声学特征进行采样处理，得到处理后的声学特征；相应的，利用并行计算模型对所述声学特征进行处理，得到所述待处理文本的第一音频信息，包括：利用并行计算模型对所述处理后的声学特征进行处理，得到所述待处理文本的第一音频信息。3.如权利要求2所述的语音合成方法，其特征在于，所述对所述声学特征进行采样处理，得到处理后的声学特征，包括：若所述声学特征的采样率小于预设的所述待处理文本的合成音频的采样率，基于所述声学特征的采样率与所述待处理文本的合成音频的采样率的比值，对所述声学特征进行升采样处理，得到处理后的声学特征。4.如权利要求1所述的语音合成方法，其特征在于，所述利用串行计算模型对所述声学特征和所述第一音频信息进行处理，得到所述各个采样时刻对应的第一音频信息的残差值，包括：利用串行计算模型对第1个采样时刻对应的第一音频信息、所述第1个采样时刻对应的声学特征和预设的残差值进行处理，得到第1个采样时刻对应的第一音频信息的残差值；利用串行计算模型对第j个采样时刻对应的第一音频信息、所述第j个采样时刻对应的声学特征和第j
‑
1个采样时刻对应的残差值进行处理，得到第j个采样时刻对应的第一音频信息的残差值，其中，j＝2，3
……
n。5.如权利要求1至4任一项所述的语音合成方...

【专利技术属性】
技术研发人员：丁万，黄东延，赵之源，杨志勇，
申请(专利权)人：深圳市优必选科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人