基于音频特征提取的语音合成方法、装置、设备及介质制造方法及图纸

技术编号：29931006 阅读：20 留言：0更新日期：2021-09-04 18:59

本发明专利技术公开了基于音频特征提取的语音合成方法、装置、设备及介质，方法包括：根据第一提取规则从用户输入的初始语音中提取整体音频系数信息，将整体音频系数信息输入映射处理模型得到预设维度的个体区别特征，根据第二提取规则从初始语音中提取得到音频特征系数信息，将音频特征形式信息与个体区别特征共同输入语音合成模型以得到合成语音。本发明专利技术属于语音合成技术领域，可获取到具有较强鲁棒性的个体区别特征，并基于个体区别特征与音频特征系数信息组合以进行语音合成得到合成语音，由于在合成语音中添加了个体区别特征，可在合成语音中实现高质量地模拟自然人声的效果，从而大幅提高了所合成的语音信息的质量。幅提高了所合成的语音信息的质量。幅提高了所合成的语音信息的质量。

全部详细技术资料下载

【技术实现步骤摘要】
基于音频特征提取的语音合成方法、装置、设备及介质

[0001]本专利技术涉及语音合成
，属于智慧城市中基于音频特征提取技术进行智能语音合成的应用场景，尤其涉及一种基于音频特征提取的语音合成方法、装置、设备及介质。

技术介绍

[0002]语音交互是以语音为媒介的新一代交互模式，其已被广泛运用于导航、拨号系统和智能客服等应用场景，可通过声码器提取得到音频特征，传统声码器主要基于参数化建模语音的源滤波模型，该模型将语音建模为基频、频谱包络和非周期等声学特征，基于所提取到的音频特征进行合成得到合成语音信息。然而专利技术人发现，现有技术方法提取到的音频特征所合成的语音信息存在自然度较差的问题，无法真实模拟自然人声，也即是易造成合成的语音信息质量不高。因此，现有的技术方法中的语音合成方法存在合成质量不高的问题。

技术实现思路

[0003]本专利技术实施例提供了一种基于音频特征提取的语音合成方法、装置、设备及介质，旨在解决现有技术方法中的语音合成方法所存在的合成质量不高的问题。
[0004]第一方面，本专利技术实施例提供了一种基于音频特征提取的语音合成方法，其包括：
[0005]若接收到用户输入的初始语音，则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息；
[0006]将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征；
[0007]根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息；
[0008]将所述音频...

【技术保护点】

【技术特征摘要】
1.一种基于音频特征提取的语音合成方法，其特征在于，包括：若接收到用户输入的初始语音，则根据预置的第一提取规则从所述初始语音中提取得到整体音频系数信息；将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征；根据预置的第二提取规则从所述初始语音中提取得到音频特征系数信息；将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音。2.根据权利要求1所述的基于音频特征提取的语音合成方法，其特征在于，所述将所述整体音频系数信息输入预置的映射处理模型进行映射处理，得到预设维度的个体区别特征之前，还包括：根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练，得到训练后的映射处理模型。3.根据权利要求2所述的基于音频特征提取的语音合成方法，其特征在于，所述映射训练规则包括第一损失值计算公式、第二损失值计算公式、梯度计算公式及损失阈值，所述根据预存的训练音频数据集及预置的映射训练规则对所述映射处理模型进行训练，得到训练后的映射处理模型，包括：根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息；将所述第一音频系数信息及所述第二音频系数信息分别输入所述映射处理模型进行映射处理得到第一区别特征及第二区别特征；根据所述两条训练音频的说话人标签判断所述两条训练音频是否属于同一说话人；若所述两条训练音频属于同一说话人，则根据所述第一损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值；若所述两条训练音频不属于同一说话人，则根据所述第二损失值计算公式计算所述第一区别特征与所述第二区别特征之间的损失值；判断所述损失值是否大于所述损失阈值；若所述损失值大于所述损失阈值，则根据所述梯度计算公式及所述损失值计算得到所述映射处理模型中参数的更新值以对所述参数的原始参数值进行更新，返回执行所述根据所述第一提取规则从所述训练音频数据集中任意获取的两条训练音频中分别提取得到对应的第一音频系数信息及第二音频系数信息的步骤；若所述损失值不大于所述损失阈值，则将当前映射处理模型确定为所述训练后的映射处理模型。4.根据权利要求2所述的基于音频特征提取的语音合成方法，其特征在于，所述将所述音频特征系数信息与所述个体区别特征输入预置的语音合成模型，得到与所述初始语音对应的合成语音之前，还包括：根据预存的真实音频数据集及预置的合成模型训练规则对所述语音合成模型进行训练，得到训练后的语音合成模型。5.根据权利要求1所述的基于音频特征提取的语音合成方法，其特征在于，所述第一提
取规则包括频谱...

【专利技术属性】
技术研发人员：郭洋，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人