基于标准化流的音频生成方法、装置、设备及存储介质制造方法及图纸

技术编号：40662436 阅读：3 留言：0更新日期：2024-03-18 18:55

本发明专利技术涉及深度学习技术领域，公开了一种基于标准化流的音频生成方法、装置、计算机设备及存储介质，包括：对标准高斯分布进行随机采样，得到第一变量向量；将所述第一变量向量输入到音频生成模型中的先验网络进行逆变换，得到第一隐变量向量；将所述第一隐变量向量输入到音频生成模型中的降噪解码器进行解码，得到音频数据。可见，虽然先验网络需要对第一变量向量进行压缩操作，得到存在周期性噪声的第一隐变量向量，但通过降噪解码器，能有效的中和这部分噪声，最终生成清晰无噪声的高质量音频数据，可以达到提高音频质量的目的。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习，尤其涉及一种基于标准化流的音频生成方法、装置、计算机设备及存储介质。

技术介绍

1、近年来，随着人工智能技术的不断发展，越来越多的智能化场景需要应用到音频生成技术。

2、目前常见的用于音频生成的生成式模型框架有生成式对抗网络(gan：generativeadversarial network)、标准化流模型(nf：normalizing flow)等等，其中，标准化流模型由于常使用仿射耦合层(affine coupling layer)，运算过程中需要对数据进行维度分解(dimensional partition)。因此在处理维度低的数据，尤其一维的音频波形点时，需要对数据进行维度压缩操作：通过将每n个点组成一个n维的向量，使一个维度为1、长度为t的原始数据，压缩为维度为n、长度t/n的序列。但这种周期性的操作使得生成的音频有明显的周期性噪声，导致生成音频的质量较低。

3、因此，基于标准化流模型的语音生成模型生成的音频存在质量较低的问题。

技术实现思路

1、本专利技术实施例提供一种基于标准化流的音频生成方法、装置、计算机设备及存储介质，以解决基于标准化流模型的语音生成模型生成的音频存在质量较低的问题。

2、一种基于标准化流的音频生成方法，所述方法包括：

3、对标准高斯分布进行随机采样，得到第一变量向量；

4、将所述第一变量向量输入到音频生成模型中的先验网络进行逆变换，得到第一隐变量向量；