【技术实现步骤摘要】
本公开涉及计算机技术、人工智能,尤其是一种音频生成的方法、装置、存储介质、电子设备和程序产品。
技术介绍
1、音频的生成在许多领域都有广泛应用,包括但不限于游戏开发、视频制作、虚拟现实等领域。
2、相关技术中,通常利用无分类器引导(classifier-free guidance,cfg)机制,引导扩散模型生成音频。但是利用cfg机制在引导扩散模型生成音频的方案中,通过无分类器引导机制音频生成的机制牺牲了样本的多样性,容易导致生成音频缺乏变化性和表现力。
技术实现思路
1、本公开的实施例提供了一种音频生成的方法、装置、存储介质、电子设备和程序产品。
2、根据本公开的实施例的一个方面,提供了一种音频生成的方法,包括:
3、将获取的音频生成任务的引导信息进行编码,得到所述引导信息的隐空间表达;
4、基于扩散模型,利用混合引导策略和所述引导信息的隐空间表达,逐步进行去噪迭代,得到目标数据;其中,所述扩散模型包括原模型和降级模型,所述混合引导策略用于
...【技术保护点】
1.一种音频生成的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于扩散模型,利用混合引导策略和所述引导信息的隐空间表达,逐步进行去噪迭代,得到目标数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述原模型和所述引导信息的隐空间表达,确定每一采样步对应的第一预测噪声,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述降级模型和所述引导信息的隐空间表达,进行无分类器引导,确定每一采样步对应的第二预测噪声,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一
...【技术特征摘要】
1.一种音频生成的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于扩散模型,利用混合引导策略和所述引导信息的隐空间表达,逐步进行去噪迭代,得到目标数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述原模型和所述引导信息的隐空间表达,确定每一采样步对应的第一预测噪声,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述降级模型和所述引导信息的隐空间表达,进行无分类器引导,确定每一采样步对应的第二预测噪声,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一预测噪声以及所述第...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:北京生数科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。