语音合成方法、装置、服务器及存储介质制造方法及图纸

技术编号：29215928 阅读：13 留言：0更新日期：2021-07-10 00:54

本申请涉及人工智能中的语音处理，提供一种语音合成方法、装置、服务器及存储介质，该方法包括：调用待训练的语音合成模型；将语音样本输入参考编码器进行编码处理，以提取语音数据的韵律特征向量和音色特征向量；将韵律特征向量、音色特征向量以及文本特征向量输入嵌入层进行叠加操作，得到目标特征向量；将目标特征向量输入解码器进行解码处理，以获取语音数据的预测梅尔频谱；根据预测梅尔频谱和语音数据的真实梅尔频谱，调整语音合成模型的模型参数，直至语音合成模型收敛；将待合成语音的目标语音情绪标签和目标身份标签输入至收敛的语音合成模型，得到梅尔频谱；根据梅尔频谱生成目标语音信息。本申请提高语音合成的效率。本申请提高语音合成的效率。本申请提高语音合成的效率。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法、装置、服务器及存储介质

[0001]本申请涉及语音处理的
，尤其涉及一种语音合成方法、装置、服务器及存储介质。

技术介绍

[0002]声音作为文字内容的载体之一，能够在日常生活中有效地进行信息传递，因此语音交互技术一直都是人们关注的对象。例如，客服系统的语音交互过程涉及大量的语音合成场景，从智能客服到短视频智能配音或者有声书等都是长时间的语音交互过程，因而目前的语音合成以追求提高用户的感知体验为主。目前市面上的语音合成产品多采用语音合成模型，语音合成模型的训练样本涉及不同场景、人物、情感等要素，训练样本的数量非常庞大，实现语音合成的效率较低。因此，如何提高语音合成的效率成为了亟需解决的问题。

技术实现思路

[0003]本申请的主要目的在于提供一种语音合成方法、装置、服务器及存储介质，旨在提高语音合成的效率。
[0004]第一方面，本申请提供一种语音合成方法，包括：
[0005]获取语音样本，所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签；
[0006]调用待训练的语音合成模型，所述语音合成模型包括参考编码器、嵌入层和解码器；
[0007]将所述语音样本输入所述参考编码器进行编码处理，以提取所述语音数据的韵律特征向量和音色特征向量，其中，所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的，所述音色特征向量是根据所述身份标签对所述语音数据编码得到的；
[0008]将所述韵律特征向量、所述音色特征向量...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：获取语音样本，所述语音样本包括用户的语音数据、所述语音数据对应的语音情绪标签和所述用户的身份标签；调用待训练的语音合成模型，所述语音合成模型包括参考编码器、嵌入层和解码器；将所述语音样本输入所述参考编码器进行编码处理，以提取所述语音数据的韵律特征向量和音色特征向量，其中，所述韵律特征向量是根据所述语音情绪标签对所述语音数据编码得到的，所述音色特征向量是根据所述身份标签对所述语音数据编码得到的；将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作，得到目标特征向量；将所述目标特征向量输入所述解码器进行解码处理，以获取所述语音数据的预测梅尔频谱；获取所述语音数据的真实梅尔频谱，并根据所述预测梅尔频谱和真实梅尔频谱，调整所述语音合成模型的模型参数，直至所述语音合成模型收敛；获取待合成语音的目标语音情绪标签和目标身份标签，将所述目标语音情绪标签和所述目标身份标签输入至收敛的所述语音合成模型，得到所述待合成语音的梅尔频谱；根据所述待合成语音的梅尔频谱，生成目标语音信息。2.如权利要求1所述的语音合成方法，其特征在于，所述嵌入层包括第一嵌入层和第二嵌入层；所述将所述韵律特征向量、所述音色特征向量以及与所述语音数据对应的文本特征向量输入所述嵌入层进行叠加操作，得到目标特征向量，包括：将所述韵律特征向量和所述音色特征向量输入所述第一嵌入层进行组合，得到组合特征向量；将所述组合特征向量和所述语音数据对应的文本信息的文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。3.如权利要求2所述的语音合成方法，其特征在于，所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量之前，还包括：调整所述组合特征向量和/或所述文本特征向量，使得所述组合特征向量与所述文本特征向量的矩阵尺寸一致；所述将所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量，包括：将矩阵尺寸一致的所述组合特征向量和所述文本特征向量输入所述第二嵌入层进行叠加，得到目标特征向量。4.如权利要求3所述的语音合成方法，其特征在于，所述调整所述组合特征向量和/或所述文本特征向量，包括：确定待调整的目标矩阵尺寸；获取所述组合特征向量的第一矩阵尺寸，根据所述目标矩阵尺寸和所述第一矩阵尺寸，确定所述组合特征向量的待调整的第一矩阵位置；通过预设标识填充待调整的所述第一矩阵位置；和/或获取所述文本特征向量的第二矩阵尺寸，根据所述目标矩阵尺寸和所述第二矩阵尺寸，确定所述文本特征向量的待调整的第二矩阵位置；
通过预设标识填充待调整的所述第二矩阵位置。5.如权利要求1所述的语音合成方法，其特征在于，所述根据所述预测梅尔频谱和真实梅尔频谱，调整所述语音合成模型的模型参数，直至所述语音合成模型收敛，包括：根据所述梅尔频谱和真实梅尔频谱，计算所述语音合成模型的模型损失值；基于所述模型损失值更新所述语音合成模型的模型参数，根据多个所述语音样本对更新模型参数的所述语音合成模型进行迭代训练；当确定更新模型参数的所述语音合成模型处于收敛状态，得到训练好的语音合成模型。6.如权利要求1
‑...

【专利技术属性】
技术研发人员：孙奥兰，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人