【技术实现步骤摘要】
本公开涉及人工智能,特别是涉及一种音频生成方法、装置、电子设备及存储介质。
技术介绍
1、随着人工智能生成内容(aigc)技术的发展,视频生成在各个领域引起了广泛的关注。为了使得生成的视频更加接近真实场景,需要为视频生成与画面同步的语音。然而,由于视频中包含了复杂的语义信息,因此,往往难以在进行音频生成时达到较好的视频-音频对齐效果,音频生成的质量有待提升。
技术实现思路
1、以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
2、本公开实施例提供了一种音频生成方法、装置、电子设备及存储介质,能够提升音频生成的质量。
3、一方面,本公开实施例提供了一种音频生成方法,包括:
4、获取目标视频,提取所述目标视频的目标视频特征;
5、对所述目标视频中的视频帧图像进行图像分割,得到所述视频帧图像中对象掩膜的掩膜分数,其中,所述对象掩膜用于标记所述视频帧图像中的目标对象;
6、提取用于描述所述目标对象的对象文本的第
...【技术保护点】
1.一种音频生成方法,其特征在于,包括:
2.根据权利要求1所述的音频生成方法,其特征在于,所述以所述目标视频特征以及所述目标文本特征作为去噪条件对所述带噪音频信号进行去噪,得到目标音频信号,包括:
3.根据权利要求2所述的音频生成方法,其特征在于,所述将基于所述目标视频特征得到的交叉注意力结果与所述目标文本特征求和后进行特征变换,得到当前的所述处理模块的输出,包括:
4.根据权利要求2所述的音频生成方法,其特征在于,所述将所述带噪音频信号、所述目标视频特征以及所述目标文本特征输入至扩散模型之前,所述音频生成方法还包括:
【技术特征摘要】
1.一种音频生成方法,其特征在于,包括:
2.根据权利要求1所述的音频生成方法,其特征在于,所述以所述目标视频特征以及所述目标文本特征作为去噪条件对所述带噪音频信号进行去噪,得到目标音频信号,包括:
3.根据权利要求2所述的音频生成方法,其特征在于,所述将基于所述目标视频特征得到的交叉注意力结果与所述目标文本特征求和后进行特征变换,得到当前的所述处理模块的输出,包括:
4.根据权利要求2所述的音频生成方法,其特征在于,所述将所述带噪音频信号、所述目标视频特征以及所述目标文本特征输入至扩散模型之前,所述音频生成方法还包括:
5.根据权利要求1所述的音频生成方法,其特征在于,所述基于所述目标音频信号生成所述目标视频对应的目标音频,包括:
6.根据权利要求5所述的音频生成方法,其特征在于,所述将所述目标音频信号和所述参考音频信号进行加权求和,得到加权音频信号,包括:
7.根据权利要求1所述的音频生成方法,其特征在于,所述对所述目标视频中的视频帧图像进行图像分割,得到所述视频帧图像中对象掩膜的掩膜分数,包括:
8.根据权利要求7所述的音频生成方法,其特征在于...
【专利技术属性】
技术研发人员:顾宇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。