一种基于推理整合到训练过程中的音频生成的加速方法技术

技术编号：40794373 阅读：5 留言：0更新日期：2024-03-28 19:22

本发明专利技术提出了一种基于推理整合到训练过程中的音频生成的加速方法，包括步骤1：训练去噪扩散概率模型(DDPM)，在正向过程中，通过马尔可夫链和高斯噪声，按预设噪声调度向数据样本注入噪声，获得带噪声的数据分布；步骤2：推理过程为逆向，逐步从高斯分布的噪声中恢复数据，利用参数化的逆向转换步骤和神经网络估计的噪声训练模型，目的是最大化似然函数的变分下界；步骤3：优化DDPM，通过比较生成样本与真实样本的距离，使用多分辨率短时傅里叶变换(STFT)损失函数和其他度量，以接近人类的感知质量；步骤4：增强模型对不同噪声级别的鲁棒性，在训练中考虑不同噪声水平变化，同时针对声码器任务优化推理过程中的噪声级别选择。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频处理，特别涉及一种基于推理整合到训练过程中的音频生成的加速方法。

技术介绍

1、在5g通信技术和物联网的推动下，数字网络面临着数据量呈指数级增长的新挑战。这一趋势对传统的去噪扩散概率模型，特别是在语音合成器领域的应用，提出了严峻的挑战。虽然这些模型在音频生成质量方面表现卓越，但由于它们在推断过程中需要大量迭代，因此在实时处理和高效计算方面难以满足现代技术的需求。

2、面对这一问题，本专利技术旨在探索新的方法和技术，以解决这一矛盾，即在保证音频生成质量的同时，提高处理速度。这不仅包括优化现有模型的推断过程，还涉及将推断过程融入训练阶段，从而减少推断阶段所需的迭代次数。

技术实现思路

1、为了克服现有技术中的不足，本专利技术提供一种基于推理整合到训练过程中的音频生成的加速方法，在保证音频生成质量的同时，提高处理速度。这不仅包括优化现有模型的推断过程，还涉及将推断过程融入训练阶段，从而减少推断阶段所需的迭代次数。

2、为了达到上述专利技术目的，解决其技术问题所采用的技术方案如下：

3、一种基于推理整合到训练过程中的音频生成的加速方法，包括以下步骤：

4、步骤1：去噪扩散概率模型的训练过程是一个正向过程，其中一个马尔可夫链根据预定义的噪声调度在每个时间步骤中向数据样本注入高斯噪声，并通过特定的转移概率公式直接从初始数据获得带噪声的分布；

5、步骤2：去噪扩散概率模型的推理过程是一个反向过程，逐步从符合高斯分布的噪

6、步骤3：为了在快速采样设置下提高生成数据样本的质量，通过测量生成样本与真实样本之间的距离来优化扩散模型ddpms，利用多分辨率短时傅里叶变换stft损失函数和其他度量来接近人类的感知质量；

7、步骤4：为了在推理步骤数量较少时提高ddpms样本质量，通过在训练中考虑一系列噪声水平的变化范围来增强模型对不同噪声级别的鲁棒性，同时针对声码器任务的直观原则来优化推理过程中的噪声级别选择。

8、进一步的，步骤1包括以下内容：

9、正向过程是一个马尔可夫链，根据预定义的噪声调度β，在每个时间步骤t∈[1,...,t]中将高斯噪声ò～n(0,i)注入数据样本x0，每个时间步骤t的转移概率为：

10、

11、其中，xt表示在时间步长t的数据样本或状态，β表示扩散过程中的一个超参数，控制着在每个时间步长添加到数据样本中的噪声量，i表示单位矩阵；利用ddpm和高斯噪声的良好特性，通过直接从x0获得带噪声的数据分布q(xt∣x0)，其中αt:＝1-βt，而表示时间步骤t处的相应噪声水平。

12、进一步的，步骤2包括以下内容：

13、反向过程是一种去噪过程，逐渐从符合p(xt)～n(0,i)的噪声中去除噪声，以恢复数据x0：

14、

15、其中，xt表示在时间步长t的数据样本或状态，pθ为每个逆向步骤的转换概率的参数，即：

16、为方差，μθ(xt,t)为定义均值，其中，是神经网络估计的噪声；

17、该模型通过最大化似然函数pθ(x0)的变分下界来进行训练，在μθ的参数化下，实际上训练目标通常被定义为ld(θ)：

18、

19、其中，ld(θ)这部分代表期望，表示对所有原始数据样本x0和所有可能的噪声∈的平均，这里的期望是关于x0和∈的联合分布，是原始数据x0乘以按照噪声级别缩放，是噪声∈按照噪声级别缩放的结果。

20、进一步的，步骤3包括以下内容：

21、给定n＝t，ddpms从xt生成数据样本作为扩散过程的镜像，当设置n＜＜t以进行快速采样时，两个相邻推理步骤之间的距离会增大，生成质量会降低，使用一个推理损失li来衡量生成样本与真实样本x0之间的距离，将li纳入ddpms的训练目标中，形式为：

22、

23、其中，ld(θ)之前的公式中定义，λ表示推理损失的权重；

24、在设计li时，使用地面真实数据x0来测量距离，而不是使用中间潜在表示xt，数据通过推理进程从高斯噪声xt生成的，通过这种方式，整个反向过程被纳入优化中，即减小li意味着提高ddpms的样本质量；

25、在li中使用的样本质量度量应该接近于人类感知，使用多分辨率短时傅里叶变换stft损失函数作为其中，ls是单个stft损失，m是分辨率的数量：

26、

27、其中，x0代表原始音频和代表合成音频lmag是梅尔频率倒谱系数l1损失，lpha是stft相位谱的l2损失。

28、进一步的，步骤4包括以下内容：

29、当推理步骤数量n较小时，ddpms的样本质量对于推理调度非常敏感，通过将一系列包含到li中，从而增强模型对推理调度的鲁棒性，针对声码器任务，通过几个直观的原则来确定给定n＜＜t的推理调度

30、假设扩散过程将数据破坏成接近高斯噪声n(0,i)，其中0＜β1＜…＜βt＜1，将表示为噪声水平，其在t＝0时为1，在t＝t时接近于0，根据训练中使用的进度表β和通过几个建议来确定推理中使用的进度表和

31、的范围：应满足其中β1表示训练中使用的最小噪声尺度；当n＜＜t时，通常大于βt，以确保位于适当的范围内；

32、和之间的比率：在决定时，从到开始，为了确保ddpms的降噪能力，和之间的比率不应过大，不设置

33、的值：当从n(0,i)开始反向过程时，不接近1，ddpms从的第一个反向步骤中达到当接近1时，ddpms的降噪能力无法满足要求，将导致样本中的失真，使用小于0.7的值。

34、本专利技术由于采用以上技术方案，使之与现有技术相比，具有以下的优点和积极效果：

35、1、效率提升：通过在训练阶段融入推断过程，显著减少了推断时所需的迭代次数，提高了整体处理速度。

36、2、质量保持：即便在减少推断迭代的情况下，仍能保持甚至提升音频生成的质量。

37、3、鲁棒性增强：相比于之前的模型，本专利技术在不同推断计划下展现出更好的鲁棒性，降低了对优化推断计划的依赖。

38、4、资源利用优化：在资源有限的场合(如边缘云计算)中，能更有效地利用计算资源。

本文档来自技高网...

【技术保护点】

1.一种基于推理整合到训练过程中的音频生成的加速方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于推理整合到训练过程中的音频生成的加速方法，其特征在于，步骤1包括以下内容：

3.根据权利要求1所述的一种基于推理整合到训练过程中的音频生成的加速方法，其特征在于，步骤2包括以下内容：

4.根据权利要求1所述的一种基于推理整合到训练过程中的音频生成的加速方法，其特征在于，步骤3包括以下内容：

5.根据权利要求1所述的一种基于推理整合到训练过程中的音频生成的加速方法，其特征在于，步骤4包括以下内容：

【技术特征摘要】

1.一种基于推理整合到训练过程中的音频生成的加速方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于推理整合到训练过程中的音频生成的加速方法，其特征在于，步骤1包括以下内容：

3.根据权利要求1所述的一种基于推理整合到训练过程中的音频生成的加...

【专利技术属性】
技术研发人员：张青青，王闻宇，王晓飞，
申请(专利权)人：派欧云计算上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人