【技术实现步骤摘要】
一种深度伪造视频检测方法、装置、设备及介质
[0001]本专利技术涉及视频检测
,尤其涉及一种深度伪造视频检测方法、装置、设备及介质。
技术介绍
[0002]视频媒体是重要信息的载体,对获取信息起着重要的作用。如利用深度学习技术生成的换脸视频近年来在网络上涌现,随着伪造视频质量的不断提高,深度伪造技术的恶意应用有着巨大的危害。
[0003]目前,深度伪造视频检测技术主要可分为两类:基于特定伪影的检测方法和基于深度学习的检测方法。其中,基于特定伪影的检测方法关注于视频伪造过程中产生的特定视觉伪影,这些伪影对于人类来说可能是明显或微弱的,但通过机器学习和取证分析技术却有能力将其检测出来。同时,基于深度学习的检测方法将深度伪造视频检测任务视为寻常的图像或视频分类任务,训练精心设计的深度神经网络自动提取有用的特征从而实现对真实视频和伪造视频的区分。
[0004]然而,以上现有的检测方法均基于单一模态即图片或视频进行检测,而现有的深度伪造视频往往伴有伪造的音频。因此,如何有效利用视频中的视觉信息和听觉信息是尚未解 ...
【技术保护点】
【技术特征摘要】
1.一种深度伪造视频检测方法,其特征在于,包括:对待检测视频进行视频特征分析,得到待检测视频的视音频特征;将所述待检测视频的视音频特征输入预设的多层感知机分类模型,得出检测结果;其中,所述视音频特征包括视觉特征和音频特征,所述预设的多层感知机分类模型以深度伪造视频的视音频特征和真实视频的视音频特征为样本,以及与深度伪造视频的视音频特征和真实视频的视音频特征各自对应的标签训练得到。2.根据权利要求1所述的深度伪造视频检测方法,其特征在于,所述对待检测视频进行视频特征分析,得到待检测视频的视音频特征,包括:对待检测视频进行视频初步特征分析,得到视音频初步特征;利用复合注意力模块,将所述视音频初步特征进行视觉和听觉的信息交互,得到视音频特征;其中,所述视音频初步特征包括具有视频帧的视觉初步特征和具有梅尔倒谱系数的音频初步特征;所述复合注意力模块以残差神经网络的残差模块为骨架,将位于所述残差模块中的中间卷积层替换为复合注意力层后得到。3.根据权利要求2所述的深度伪造视频检测方法,其特征在于,所述对待检测视频进行视频初步特征分析,获取视音频初步特征,包括:提取待检测视频中的人脸区域的视频帧和梅尔倒谱系数;根据所述视频帧和梅尔倒谱系数,利用残差神经网络,分别得出所述视觉初步特征和音频初步特征。4.根据权利要求3所述的深度伪造视频检测方法,其特征在于,所述提取待检测视频中的人脸区域的视频帧的步骤,包括:利用多任务卷积神经网络模型,提取待检测视频的视频帧中每一帧中的人脸区域图片,得到所述视频帧。5.根据权利要求3所述的深度伪造视频检测方法,其特征在于,所述提取待检测视频中的梅尔倒谱系数的步骤,包括:利用音频分析工具,对待检测视频中的音频进行分帧和加窗处理后,得到所述梅尔倒谱系数。6.根据权利要求2至5中任一项中的深度伪造视频检测方法,其特征在于,所述利用复合注意力模块,将所述视音频初步特征进行视觉和听觉的信息交互,得到视音频特征,包括:将...
【专利技术属性】
技术研发人员:喻民,姜建国,梁亚超,刘超,李敏,黄伟庆,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。