System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于图像和语音多模态融合的伪造视频检测方法及装置制造方法及图纸_技高网

基于图像和语音多模态融合的伪造视频检测方法及装置制造方法及图纸

技术编号:40284943 阅读:6 留言:0更新日期:2024-02-07 20:38
本发明专利技术提供一种基于图像和语音多模态融合的伪造视频检测方法及装置,该方法涉及视频检测技术领域,包括:将待检测视频进行预处理,得到多个视频片段;待检测视频包括音频,每个视频片段包括音频;针对每个视频片段,分别提取视频片段的视频特征向量和视频片段中的音频的音频特征向量;基于各视频特征向量和各音频特征向量,确定待检测视频对应的总视频特征向量和总音频特征向量;基于各视频特征向量、各音频特征向量、总视频特征向量和总音频特征向量,确定待检测视频的目标检测结果;目标检测结果表示待检测视频为伪造视频或者真实视频,提升了待检测视频的目标检测结果的准确性,进而提升了对待检测视频中深度伪造内容的检测精度。

【技术实现步骤摘要】

本专利技术涉及视频检测,尤其涉及一种基于图像和语音多模态融合的伪造视频检测方法及装置


技术介绍

1、深度伪造技术是一种基于人工智能和机器学习的技术,可以用来生成逼真的虚假影像、视频和语音等对抗现实真相的虚假信息,可以用于模仿、伪造人类行为特征,生成图片、视频和音频等,且视频换脸、换声技术早已为在影视制作等领域广泛运用。深度伪造技术的兴起主要归功于生成式对抗网络(generative adversarial network,gan)的出现和发展,gan上搭载着两个神经网络:生成器与识别器,两者在互相博弈学习中产生大规模和高精确度的输出。

2、目前,常用的深度伪造辨别方式包括基于传统的数字取证技术和基于深度学习模型的检测技术;其中,基于传统的数字取证技术,对于音频分量而言,音频信号特征检测主要是通过对声音信号进行分析,如声音的频率、波形、相位、频谱等特征进行分析;对于视频和图像分量而言,可利用包括利用图像和视频元数据、色彩信息、像素分布等特征,检测图像是否有痕迹被复制、剪切、粘贴、编辑等操作,或者是否存在像素分布异常、重复出现的情况等。基于深度学习模型的检测技术,通过使用训练的检测模型对深度伪造内容进行自动检测。

3、然而,常用的深度伪造辨别方式使用的数据来源单一,导致对深度伪造内容的检测精度低。


技术实现思路

1、本专利技术提供一种基于图像和语音多模态融合的伪造视频检测方法及装置,用以解决现有技术中对深度伪造内容的检测精度低的问题。

2、本专利技术提供一种基于图像和语音多模态融合的伪造视频检测方法,包括:

3、将待检测视频进行预处理,得到多个视频片段;所述待检测视频包括音频,每个所述视频片段包括所述音频;

4、针对每个所述视频片段,分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量;

5、基于各所述视频特征向量和各所述音频特征向量,确定所述待检测视频对应的总视频特征向量和总音频特征向量;

6、基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量,确定所述待检测视频的目标检测结果;所述目标检测结果表示所述待检测视频为伪造视频或者真实视频。

7、根据本专利技术提供的一种基于图像和语音多模态融合的伪造视频检测方法,所述基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量,确定所述待检测视频的目标检测结果,包括:

8、基于所述总视频特征向量和所述总音频特征向量,确定所述待检测视频对应的融合特征向量;

9、基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量,分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果;

10、基于所述第一检测结果、所述第二检测结果和所述第三检测结果,确定所述待检测视频的目标检测结果。

11、根据本专利技术提供的一种基于图像和语音多模态融合的伪造视频检测方法,所述基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量,分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果,包括:

12、基于各所述视频特征向量和各所述音频特征向量,分别确定任意两个视频片段对应的第一相关性特征向量序列和所述任意两个视频片段中的所述音频对应的第二相关性特征向量序列;所述第一相关性特征向量序列表示所有视频片段之间的相关性;所述第二相关性特征向量序列表示所述所有视频片段中的所述音频之间的相关性;

13、分别将所述第一相关性特征向量序列、所述第二相关性特征向量序列和所述融合特征向量输入至所述第一相关性特征向量序列对应的第一分类器、所述第二相关性特征向量序列对应的第二分类器和所述融合特征向量对应的分类判别网络,得到所述第一分类器输出的所述第一检测结果、所述第二分类器输出的所述第二检测结果和所述分类判别网络输出的所述第三检测结果;其中,所述第一分类器是基于样本真实视频对应的第一样本相关性特征向量序列训练得到的,所述第二分类器是基于所述样本真实视频中的样本音频对应的第二样本相关性特征向量序列训练得到的,所述分类判别网络是基于所述样本真实视频对应的样本多模态融合向量和标签数据进行训练得到的。

14、根据本专利技术提供的一种基于图像和语音多模态融合的伪造视频检测方法,所述基于所述总视频特征向量和所述总音频特征向量,确定所述待检测视频对应的融合特征向量,包括:

15、将所述总视频特征向量和所述总音频特征向量进行归一化,得到归一化之后的总视频特征向量和归一化之后的总音频特征向量;

16、将所述归一化之后的总视频特征向量和所述归一化之后的总音频特征向量进行拼接,得到所述待检测视频对应的融合特征向量。

17、根据本专利技术提供的一种基于图像和语音多模态融合的伪造视频检测方法,所述基于所述第一检测结果、所述第二检测结果和所述第三检测结果,确定所述待检测视频的目标检测结果,包括:

18、在所述第一检测结果、所述第二检测结果和所述第三检测结果均为真实的情况下,确定所述待检测视频为所述真实视频;

19、在所述第一检测结果、所述第二检测结果和所述第三检测结果中至少一项为伪造的情况下,确定所述待检测视频为所述伪造视频。

20、根据本专利技术提供的一种基于图像和语音多模态融合的伪造视频检测方法,所述基于各所述视频特征向量和各所述音频特征向量,确定所述待检测视频对应的总视频特征向量和总音频特征向量,包括:

21、针对每个所述视频片段,将所述视频片段对应的所述视频特征向量和所述音频特征向量进行归一化,分别得到归一化之后的视频特征向量和归一化之后的音频特征向量;

22、分别将各所述归一化之后的视频特征向量和各所述归一化之后的音频特征向量进行拼接,得到所述待检测视频对应的总视频特征向量和总音频特征向量。

23、根据本专利技术提供的一种基于图像和语音多模态融合的伪造视频检测方法,提取所述视频片段的视频特征向量,包括:

24、针对每个所述视频片段,对所述视频片段中的每帧视频图像进行裁剪,得到裁剪后的视频图像;

25、将所述裁剪后的视频图像进行划分,得到目标区域和非目标区域;

26、基于所述目标区域和所述非目标区域,确定所述视频片段的视频特征向量。

27、本专利技术还提供一种基于图像和语音多模态融合的伪造视频检测装置,包括:

28、预处理模块,用于将待检测视频进行预处理,得到多个视频片段;所述待检测视频包括音频,每个所述视频片段包括所述音频;

29、特征提取模块,用于针对每个所述视频片段,分别提取所述视频片段的视频特征向量和所述视频片段中的所述音频的音频特征向量;

30、确定模块,用于基于各所述视频特征向量和各所述音本文档来自技高网...

【技术保护点】

1.一种基于图像和语音多模态融合的伪造视频检测方法,其特征在于,包括:

2.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量,确定所述待检测视频的目标检测结果,包括:

3.根据权利要求2所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量,分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果,包括:

4.根据权利要求2所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于所述总视频特征向量和所述总音频特征向量,确定所述待检测视频对应的融合特征向量,包括:

5.根据权利要求2所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于所述第一检测结果、所述第二检测结果和所述第三检测结果,确定所述待检测视频的目标检测结果,包括:

6.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于各所述视频特征向量和各所述音频特征向量,确定所述待检测视频对应的总视频特征向量和总音频特征向量,包括:

7.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,提取所述视频片段的视频特征向量,包括:

8.一种基于图像和语音多模态融合的伪造视频检测装置,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于图像和语音多模态融合的伪造视频检测方法。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于图像和语音多模态融合的伪造视频检测方法。

...

【技术特征摘要】

1.一种基于图像和语音多模态融合的伪造视频检测方法,其特征在于,包括:

2.根据权利要求1所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于各所述视频特征向量、各所述音频特征向量、所述总视频特征向量和所述总音频特征向量,确定所述待检测视频的目标检测结果,包括:

3.根据权利要求2所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于各所述视频特征向量、各所述音频特征向量和所述融合特征向量,分别确定各所述视频特征向量对应的第一检测结果、各所述音频特征向量对应的第二检测结果和所述融合特征向量对应的第三检测结果,包括:

4.根据权利要求2所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于所述总视频特征向量和所述总音频特征向量,确定所述待检测视频对应的融合特征向量,包括:

5.根据权利要求2所述的基于图像和语音多模态融合的伪造视频检测方法,其特征在于,所述基于所述第一检测结果、所述第二...

【专利技术属性】
技术研发人员:孙旭东张震石瑾刘铭郭承禹刘晰尧仇艺
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1