音频生成的方法、装置、存储介质、电子设备和程序产品制造方法及图纸

技术编号：45844404 阅读：10 留言：0更新日期：2025-07-19 11:07

本公开实施例公开了一种音频生成的方法、装置、存储介质、电子设备和程序产品，将获取的音频生成任务的引导信息进行编码，得到所述引导信息的隐空间表达；基于扩散模型，利用混合引导策略和所述引导信息的隐空间表达，逐步进行去噪迭代，得到目标数据；其中，所述扩散模型包括原模型和降级模型，所述混合引导策略用于引导所述原模型和所述降级模型分别进行无分类器引导；将所述目标数据解码至音频空间，得到所述音频生成任务对应的音频信息。本公开通过引导原模型和降级模型分别进行无分类器引导和降级模型引导的混合引导策略使得引导路径更具结构性和鲁棒性，有效提升了语义保真度和音频信号的自然度。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机技术、人工智能，尤其是一种音频生成的方法、装置、存储介质、电子设备和程序产品。

技术介绍

1、音频的生成在许多领域都有广泛应用，包括但不限于游戏开发、视频制作、虚拟现实等领域。

2、相关技术中，通常利用无分类器引导（classifier-free guidance，cfg）机制，引导扩散模型生成音频。但是利用cfg机制在引导扩散模型生成音频的方案中，通过无分类器引导机制音频生成的机制牺牲了样本的多样性，容易导致生成音频缺乏变化性和表现力。

技术实现思路

1、本公开的实施例提供了一种音频生成的方法、装置、存储介质、电子设备和程序产品。

2、根据本公开的实施例的一个方面，提供了一种音频生成的方法，包括：

3、将获取的音频生成任务的引导信息进行编码，得到所述引导信息的隐空间表达；

4、基于扩散模型，利用混合引导策略和所述引导信息的隐空间表达，逐步进行去噪迭代，得到目标数据；其中，所述扩散模型包括原模型和降级模型，所述混合引导策略用于...

【技术保护点】

1.一种音频生成的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于扩散模型，利用混合引导策略和所述引导信息的隐空间表达，逐步进行去噪迭代，得到目标数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述原模型和所述引导信息的隐空间表达，确定每一采样步对应的第一预测噪声，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于所述降级模型和所述引导信息的隐空间表达，进行无分类器引导，确定每一采样步对应的第二预测噪声，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一预测噪声以及所述第二...

【技术特征摘要】

1.一种音频生成的方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述原模型和所述引导信息的隐空间表达，确定每一采样步对应的第一预测噪声，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一预测噪声以及所述第...

【专利技术属性】
技术研发人员：请求不公布姓名，
申请(专利权)人：北京生数科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人