音频生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：43965425 阅读：38 留言：0更新日期：2025-01-07 21:51

本公开实施例公开了一种音频生成方法、装置、电子设备及存储介质，通过提取用于描述目标对象的对象文本的第一文本特征，利用掩膜分数对同一视频帧图像中的第一文本特征进行加权求和，能够得到更加准确地代表视频帧图像中的目标对象的第二文本特征，在此基础上，通过融合多个视频帧图像的第二文本特征得到目标文本特征，使得目标文本特征能够提供帧级别且细粒度的语义信息，后续再获取随机生成的带噪音频信号，以目标视频特征以及目标文本特征作为去噪条件对带噪音频信号进行去噪，得到目标音频信号，基于目标音频信号生成目标视频对应的目标音频，实现帧级别的音频生成，优化了目标音频与目标视频中画面的对齐效果，从而提升音频生成的质量。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，特别是涉及一种音频生成方法、装置、电子设备及存储介质。

技术介绍

1、随着人工智能生成内容(aigc)技术的发展，视频生成在各个领域引起了广泛的关注。为了使得生成的视频更加接近真实场景，需要为视频生成与画面同步的语音。然而，由于视频中包含了复杂的语义信息，因此，往往难以在进行音频生成时达到较好的视频-音频对齐效果，音频生成的质量有待提升。

技术实现思路

1、以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本公开实施例提供了一种音频生成方法、装置、电子设备及存储介质，能够提升音频生成的质量。

3、一方面，本公开实施例提供了一种音频生成方法，包括：

4、获取目标视频，提取所述目标视频的目标视频特征；

5、对所述目标视频中的视频帧图像进行图像分割，得到所述视频帧图像中对象掩膜的掩膜分数，其中，所述对象掩膜用于标记所述视频帧图像中的目标对象；

6、提取用于描述所述目标对象的对象文本的第...

【技术保护点】

1.一种音频生成方法，其特征在于，包括：

2.根据权利要求1所述的音频生成方法，其特征在于，所述以所述目标视频特征以及所述目标文本特征作为去噪条件对所述带噪音频信号进行去噪，得到目标音频信号，包括：

3.根据权利要求2所述的音频生成方法，其特征在于，所述将基于所述目标视频特征得到的交叉注意力结果与所述目标文本特征求和后进行特征变换，得到当前的所述处理模块的输出，包括：

4.根据权利要求2所述的音频生成方法，其特征在于，所述将所述带噪音频信号、所述目标视频特征以及所述目标文本特征输入至扩散模型之前，所述音频生成方法还包括：