基于对抗网络的声音样本生成方法、装置、设备及介质制造方法及图纸

技术编号：31705905 阅读：23 留言：0更新日期：2022-01-01 11:08

本申请适用于人工智能技术领域，提供了一种基于对抗网络的声音样本生成的方法、装置、设备及介质，其中，一种基于对抗网络的声音样本生成的方法包括以下步骤：利用对抗网络模型中的生成器，对人声语音样本对应的梅尔频谱进行多尺度特征融合操作，得到用于表征合成语音的新的梅尔频谱；利用多分辨率梅尔谱损失函数，得到目标损失值；基于所述目标损失值，得到训练后的对抗网络模型；利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟，得到声音样本。应用本申请实施例所提供的技术方案，提高了训练对抗网络模型收敛的速度，且利用该训练后的模型生成的声音样本与真实人声效果更接近，相似度较高。相似度较高。相似度较高。

全部详细技术资料下载

【技术实现步骤摘要】
基于对抗网络的声音样本生成方法、装置、设备及介质

[0001]本申请涉及人工智能领域，特别涉及一种基于对抗网络的声音样本生成方法、装置、设备及介质。

技术介绍

[0002]随着人工智能技术的发展，神经网络在语音合成技术上的完善，模拟真实人声的语音合成技术在电话销售、人工智能客服、语音播报、导航播报等方面有着广泛的应用。现有的模拟真实人声的方式是对人声特征进行采集，利用得到的人声特征训练模型。但是该训练过程中语音的潜在差异难以量化，导致模型收敛过程及其缓慢，且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异。

技术实现思路

[0003]本申请的目的在于提供一种基于对抗网络的声音样本生成方法、装置、设备及介质，以解决现有技术中存在的现有模型在训练过程中语音的潜在差异难以量化，导致模型收敛过程及其缓慢，且利用该训练后的模型生成的声音样本与真实人声样本之间存在较大差异的技术问题。
[0004]本申请实施例的第一方面提供了一种基于对抗网络的声音样本生成方法，包括：
[0005]利用对抗网络模型中的生成器，对人声语音样本对应的梅尔频谱进行多尺度特征融合操作，得到用于表征合成语音样本的新的梅尔频谱；
[0006]利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值，并根据所述损失值得到目标损失值；
[0007]基于所述目标损失值对所述对抗网络模型进行训练，得到训练后的对抗网络模型；
[0008]利用所述训练后的对抗网...

【技术保护点】

【技术特征摘要】
1.一种基于对抗网络的声音样本生成方法，其特征在于，包括：利用对抗网络模型中的生成器，对人声语音样本对应的梅尔频谱进行多尺度特征融合操作，得到用于表征合成语音样本的新的梅尔频谱；利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值，并根据所述损失值得到目标损失值；基于所述目标损失值对所述对抗网络模型进行训练，得到训练后的对抗网络模型；利用所述训练后的对抗网络模型对输入的人声语音进行样本模拟，得到声音样本。2.根据权利要求1所述的方法，其特征在于，所述利用对抗网络模型中的生成器，对人声语音样本对应的梅尔频谱进行多尺度特征融合操作，得到用于表征合成语音样本的新的梅尔频谱，包括：利用短时傅里叶变换对所述人声语音样本的幅度谱进行处理，得到处理后的幅度谱；利用梅尔谱滤波器组计算所述处理后的幅度谱得到所述梅尔频谱；利用所述生成器基于所述梅尔频谱进行多尺度特征采集操作与特征融合操作，得到所述新的梅尔频谱。3.根据权利要求2所述的方法，其特征在于，所述利用短时傅里叶变换对所述人声语音样本的幅度谱进行处理，得到处理后的幅度谱，包括：对所述人声语音样本的幅度谱进行使用分帧与加窗处理，得到待变换幅度谱；对所述待变换幅度谱进行短时傅里叶变换，得到处理后的幅度谱。4.根据权利要求2所述的方法，其特征在于，所述生成器包括转置卷积层和多尺度信息融合层；所述利用所述生成器中基于所述梅尔频谱进行多尺度特征采集操作与特征融合操作，得到所述新的梅尔频谱，包括：利用所述生成器中的转置卷积层对所述梅尔频谱进行上采样；利用所述生成器中的多尺度信息融合层对所述梅尔频谱进行多尺度提取和特征融合，得到所述新的梅尔频谱。5.根据权利要求1所述的方法，其特征在于，所述利用多分辨率梅尔谱损失函数,计算所述梅尔频谱的多尺度特征与所述新的梅尔频谱的多尺度特征之间的损失值，并根据所述损失值得到目标损失值，包括：根据所述对抗网络中的辨别器对所述梅尔频谱和所述新的梅尔频谱进行多尺度的下采样，得到所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征；其中，所述辨别器的结构包括N个所述辨别器，其中，N为大于或等于3的整数；利用多分辨率梅尔谱损失函数，计算所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的损失值；从所述损失值中得到目标损失值。6.根据权利要求5所述的方法，其特征在于，所述利用多分辨率梅尔谱损失函数，计算所述梅尔频谱多尺度特征与所述新的梅尔频谱多尺度特征之间的损失值，包括：通过以下公式，计算所述梅尔频谱和所述新的梅尔频谱之间的差异值：Lmel(G)＝||f(x)
‑
f(s)||1，其中，Lmel(G)所述梅尔频谱和所述新的梅尔频谱之间的差异值；f(x)为所述梅尔频
谱；f(s)为所述新的梅尔频谱；f(x)

【专利技术属性】
技术研发人员：郭洋，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人