视频音效生成方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：41310149 阅读：5 留言：0更新日期：2024-05-13 14:53

本申请涉及一种视频音效生成方法、装置、计算机设备和存储介质。所述方法包括：通过视觉特征提取模型提取待配音视频对应的视觉语义特征；将待配音视频对应的视觉语义特征输入至噪声去除模型，通过噪声去除模型的反向过程，将待配音视频对应的视觉语义特征作为控制条件，去除设定的噪声中各时间步对应的待去除噪声，得到待配音视频对应的音频潜变量；根据待配音视频对应的音频潜变量，生成配音音效。采用本方法能够利用对比学习方式，将视觉模态特征与音频模态特征进行跨模态对齐，利用噪声估计模型，逐步去除设定的噪声中各时间步对应的待去除噪声，得到音频潜变量，从而生成音画同步效果好的配音音效，提高配音音效与待配音视频之间的匹配度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，特别是涉及一种视频音效生成方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

1、音频内容的生成和处理在许多领域都有着广泛的应用，包括但不限于音乐制作、电影和电视制作、游戏开发、虚拟现实等，随着深度学习技术的发展，单模态的音频生成技术已经取得了显著的进步，而视频画面驱动的音频生成目前还在探索阶段。

2、传统技术可以通过在音效库中通过排序生成针对待配音视频的配音音频，也可以通过针对待配音视频的文本描述生成配音音频，然而，音效音频库的规模和音效数量限制了配音音效的生成精度，制作成本高，难以实现音画同步，文本描述存在丢失语义信息的可能，生成的配音音频与待配音视频的时序特征匹配度不高，也无法实现音画同步，不利于提高配音音效的准确度以及配音音效与待配音视频之间的匹配度。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高配音音效与待配音视频之间的匹配度的视频音效生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种视频音效生成方法，包括：

3、通过预训练的视觉特征提取模型提取待配音视频对应的视觉语义特征；所述预训练的视觉特征提取模型针对样本视频输出的视觉语义特征与所述样本视频对应的样本音频的音频语义特征相匹配；所述预训练的视觉特征提取模型由所述样本视频输出的视觉语义特征和所述样本视频对应的样本音频的音频语义特征进行对比学习训练得到；

4、将所述待配音视频对应的

5、根据所述待配音视频对应的音频潜变量，生成针对所述待配音视频的配音音效。

6、在其中一个实施例中，所述预训练的视觉特征提取模型包括要素语义特征提取模型和细节运动特征提取模型，所述通过预训练的视觉特征提取模型提取待配音视频对应的视觉语义特征，包括：

7、将所述待配音视频输入至所述要素语义特征提取模型，得到所述待配音视频的要素语义特征；

8、将所述待配音视频输入至所述细节运动特征提取模型，得到所述待配音视频的细节运动特征；

9、根据所述要素语义特征和所述细节运动特征，确定所述待配音视频的视觉语义特征。

10、在其中一个实施例中，所述根据所述要素语义特征和所述细节运动特征，确定所述待配音视频的视觉语义特征，包括：

11、对所述细节运动特征进行下采样处理，得到所述细节运动特征的下采样特征；

12、将所述下采样特征和所述待配音视频的要素语义特征输入至所述预训练的视觉特征提取模型，得到所述待配音视频的视觉语义特征。

13、在其中一个实施例中，所述根据所述待配音视频对应的音频潜变量，生成针对所述待配音视频的配音音效，包括：

14、将所述待配音视频对应的音频潜变量输入至预训练的解码器，得到所述音频潜变量对应的频谱特征；

15、将所述频谱特征输入至声码器，得到针对所述待配音视频的配音音效。

16、第二方面，本申请提供了一种视觉特征提取模型的训练方法，所述方法包括：

17、获取所述样本视频的视觉语义特征与所述样本视频对应的样本音频的音频语义特征；

18、根据所述样本视频的视觉语义特征和所述样本视频对应的样本音频的音频语义特征，对待训练的视觉特征提取模型进行训练，直至所述待训练的视觉特征提取模型针对所述样本视频输出的视觉语义特征与所述样本视频对应的样本音频的音频语义特征相匹配。

19、第三方面，本申请提供了一种噪声去除模型的训练方法，所述方法包括：

20、通过所述噪声去除模型的扩散过程，向所述样本视频对应的样本音频的音频潜变量中加入高斯噪声，得到所述样本视频对应的样本音频的加噪后潜变量；

21、获取所述样本视频的视觉语义特征、所述样本视频对应的样本音频的音频语义特征和所述样本视频的时间步编码特征；

22、通过所述噪声去除模型的反向过程，将所述样本视频的视觉语义特征和所述样本音频的音频语义特征作为控制条件，确定所述加噪后潜变量针对所述时间步编码特征的待去除噪声；

23、根据所述加噪后潜变量针对所述时间步编码特征的待去除噪声和所述高斯噪声，对待训练的噪声去除模型进行训练。

24、在其中一个实施例中，所述向所述样本视频对应的样本音频的音频潜变量中加入高斯噪声，得到所述样本视频对应的样本音频的加噪后潜变量，包括：

25、将所述样本视频对应的样本音频的频谱特征输入至预训练的潜变量提取模型，得到所述样本音频的音频潜变量；

26、获取所述样本音频的音频潜变量对应的时间步编码特征；

27、根据所述样本音频的音频潜变量对应的时间步编码特征，向所述样本音频的音频潜变量中加入所述时间步编码特征对应的高斯噪声，得到所述样本音频的加噪后潜变量。

28、在其中一个实施例中，所述根据所述加噪后潜变量针对所述时间步编码特征的待去除噪声和所述高斯噪声，对待训练的噪声去除模型进行训练，包括：

29、根据所述加噪后潜变量针对所述时间步编码特征的待去除噪声和所述时间步编码特征对应的高斯噪声之间的均方误差，确定针对所述待训练的噪声去除模型的损失函数值；

30、根据所述损失函数值，对所述待训练的噪声去除模型进行训练。

31、第四方面，本申请还提供了一种视频音效生成装置，包括：

32、特征提取模块，用于通过预训练的视觉特征提取模型提取待配音视频对应的视觉语义特征；所述预训练的视觉特征提取模型针对样本视频输出的视觉语义特征与所述样本视频对应的样本音频的音频语义特征相匹配；所述预训练的视觉特征提取模型由所述样本视频输出的视觉语义特征和所述样本视频对应的样本音频的音频语义特征进行对比学习训练得到；

33、噪声去除模块，用于将所述待配音视频对应的视觉语义特征输入至预训练的噪声去除模型，通过所述噪声去除模型的反向过程，将所述待配音视频对应的视觉语义特征作为控制条件，去除设定的噪声中各时间步对应的待去除噪声，得到所述待配音视频对应的音频潜变量；所述预训练的噪声去除模型为通过所述噪声去除模型的扩散过程，在所述样本视频对应的音频潜变量中添加噪声进行训练得到；

34、音效生成模块，用于根据所述待配音视频对应的音频潜变量，生成针对所述待配音视频的配音音效。

35、第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

36、第六方面，本申本文档来自技高网...

【技术保护点】

1.一种视频音效生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预训练的视觉特征提取模型包括要素语义特征提取模型和细节运动特征提取模型，所述通过预训练的视觉特征提取模型提取待配音视频对应的视觉语义特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述要素语义特征和所述细节运动特征，确定所述待配音视频的视觉语义特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述待配音视频对应的音频潜变量，生成针对所述待配音视频的配音音效，包括：

5.一种视觉特征提取模型的训练方法，其特征在于，所述方法包括：

6.一种噪声去除模型的训练方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述向所述样本视频对应的样本音频的音频潜变量中加入高斯噪声，得到所述样本视频对应的样本音频的加噪后潜变量，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述加噪后潜变量针对所述时间步编码特征的待去除噪声和所述高斯噪声，对待训练的噪声去除模型进行训练，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种视频音效生成方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述要素语义特征和所述细节运动特征，确定所述待配音视频的视觉语义特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述待配音视频对应的音频潜变量，生成针对所述待配音视频的配音音效，包括：

5.一种视觉特征提取模型的训练方法，其特征在于，所述方法包括：

6.一种噪声去除模型的训练方法，其特征在于，所...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人