基于多模态对比学习的深伪视频检测方法技术

技术编号:44732572 阅读:18 留言:0更新日期:2025-03-21 17:57
本发明专利技术涉及一种基于多模态对比学习的深伪视频检测方法,适用于深度伪造检测领域;该方法包括:将待检测视频输入经训练的视频鉴伪模型,输出该待检测视频的检测结果;视频鉴伪模型包括:视觉编码器,取自经训练的音、视频对比学习模型,用于提取待检测视频中人脸序列的视觉特征;音频编码器,取自经训练的音、视频对比学习模型,用于提取待检测视频的音频特征;跨模态特征融合模块,用于融合视觉编码器提取的视觉特征和音频编码器提取的音频特征,得到特征融合结果;时空特征提取模块,用于对特征融合结果提取时空特征;融合特征不仅包含视觉特征,还包括音频特征,特征更丰富;分类器,用于基于时空特征,将待检测视频分类为真实视频或伪造视频。

【技术实现步骤摘要】

本专利技术涉及一种基于多模态对比学习的深伪视频检测方法。适用于深度伪造检测领域。


技术介绍

1、针对视频的深伪检测目前主要有以下几类方法:

2、基于帧的深伪视频检测方法,该方法首先将视频抽成图像帧,再利用基于图像的深伪检测方法进行真伪判断,最后采用一定策略融合每帧的检测结果得到视频的检测结果。该方法以单个帧作为输入,忽略了视频帧间的时序语义关系和全局连贯性,仅专注于纹理细节等低级特征,对干扰比较敏感,在新型伪造类型上表现不佳。

3、基于时序连贯性的深伪视频检测方法,通过rnn或lstm加入时间维度,直接对的视频进行检测。该方法引入时序信息,更加关注伪造视频中经常表现出异常的面部动作和表情,更能够抵抗压缩或模糊造成的检测干扰。

4、但以上两种方法均只用到视频中的单一模态,即视觉模态,未考虑视频中存在的音频信息,未充分利用视觉与音频间的差异信息,整体检测精度不高。

5、近年来,开始研究视听信息的联合学习,通过对视频和音频训练相对独立的鉴伪模块,并根据学习到的特征之间的相关性做出决策。该方法虽然考虑到了视频的多模态本文档来自技高网...

【技术保护点】

1.一种基于多模态对比学习的深伪视频检测方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态对比学习的深伪视频检测方法,其特征在于,所述跨模态特征融合模块用于分别从所述视觉编码器和音频编码器的stage3和stage4引出特征进行特征融合。

3.根据权利要求2所述的基于多模态对比学习的深伪视频检测方法,其特征在于,所述跨模态特征融合模块,包括:

4.根据权利要求1所述的基于多模态对比学习的深伪视频检测方法,其特征在于,所述视觉编码器采用ResNet50,并采用3D卷积;所述音频编码器采用ResNet18。

5.根据权利要求1所述的基...

【技术特征摘要】

1.一种基于多模态对比学习的深伪视频检测方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态对比学习的深伪视频检测方法,其特征在于,所述跨模态特征融合模块用于分别从所述视觉编码器和音频编码器的stage3和stage4引出特征进行特征融合。

3.根据权利要求2所述的基于多模态对比学习的深伪视频检测方法,其特征在于,所述跨模态特征融合模块,包括:

4.根据权利要求1所述的基于多模态对比学习的深伪视频检测方法,其特征在于,所述视觉编码器采用resnet50,并采用3...

【专利技术属性】
技术研发人员:龚健何覃吕永标
申请(专利权)人:杭州中科睿鉴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1