视频检测方法、视频检测模型的训练方法及装置制造方法及图纸

技术编号:34404726 阅读:35 留言:0更新日期:2022-08-03 21:49
本申请公开了一种视频检测方法及装置,用于解决现有的伪造视频检测方法存在的检测准确率低、通用性差的问题。所述视频检测方法包括:获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。测结果。测结果。

【技术实现步骤摘要】
视频检测方法、视频检测模型的训练方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种视频检测方法、视频检测模型的训练方法及装置。

技术介绍

[0002]随着深度学习的发展,各类人脸伪造技术层出不穷,比如制作一个不存在的人脸或者将视频中的人脸替换为其他人脸等,这些人脸伪造技术难免被一些人用于非法用途,伪造一些损害他人或对社会影响不好的视频。因此,对伪造视频的检测变得非常重要。
[0003]目前针对伪造视频的检测还处于发展阶段,大部分检测方法都是基于伪造过程中对人脸特征的变化以及出现的伪影来判断视频真伪。但是,这种方式容易对某些特定分布的深度伪造特征过拟合,因而只能对部分视频起到较好的检测效果,检测准确率低,通用性差。

技术实现思路

[0004]本申请实施例的目的是提供一种视频检测方法及装置,用于解决现有的视频检测方法存在的检测准确率低、通用性差的问题。
[0005]为了实现上述目的,本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提供一种视频检测方法,包括:
[0007]获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;
[0008]通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;
[0009]通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;
[0010]至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。
[0011]可以看出,本申请实施例中,利用真实人脸与伪造人脸在外观以及动态动作上均具有差异性的自然规律,基于视频检测模型,从待检测视频中目标人脸的至少一帧视频图像中提取目标人脸的脸部情绪特征,基于视频检测模型,从待检测视频中基于时序排列的目标人脸的多帧第一光流图像中提取目标人脸的脸部动作特征,进一步至少基于目标人脸的脸部情绪特征和脸部动作特征,确定待检测视频的检测结果,由于脸部情绪特征属于空域上的静态特征,能够反映人脸外观,脸部动作特征属于时域上的动态特征,能够反映人脸动作,结合空域上静态的脸部情绪特征和时域上动态的脸部动作特征这两类特征进行视频检测,可以避免陷入对某些特定分布的深度伪造特征过拟合的状态,进而可以提高检测准确率和通用性。
[0012]第二方面,本申请实施例提供一种视频检测模型的训练方法,包括:
[0013]获取样本视频集合和所述样本视频集合中每个样本视频对应的真伪标签,所述样本视频集合包括真实视频和多种伪造视频,所述多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对所述真实视频进行伪造处理后得到的;
[0014]获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像;
[0015]通过初始视频检测模型对所述目标样本视频中样本人脸的至少一帧视频图像进行特征提取,得到所述样本人脸的脸部情绪特征;
[0016]通过所述初始视频检测模型对所述目标样本视频中样本人脸的多帧第二光流图像进行特征提取,得到所述样本人脸的脸部动作特征;
[0017]至少基于所述目标样本视频中样本人脸的脸部情绪特征和脸部动作特征,确定所述目标样本视频的检测结果;
[0018]基于所述样本视频集合中每个样本视频的检测结果和所述每个样本视频对应的真伪标签,对所述初始视频检测模型进行迭代训练,得到视频检测模型。
[0019]可以看出,本申请实施例中,采用真实视频以及基于多种人脸伪造算法对真实视频进行伪造处理所得到的伪造视频作为样本视频,利用样本视频及其对应的真伪标签训练初始视频检测模型,使得所得的视频检测模型能够学习多种伪造视频的特点,有利于提高视频检测模型的泛化能力,从而有利于提高视频检测模型对各种视频的检测效果;在具体的模型训练过程中,通过初始视频检测模型从样本视频中样本人脸的至少一帧视频图像中,提取出样本人脸的脸部情绪特征,通过初始视频检测模型从样本视频中基于时序排列的样本人脸的多帧光流图像中,提取出样本人脸的脸部动作特征,以及至少基于样本人脸的脸部情绪特征和脸部动作特征,对样本视频进行检测,而后基于样本视频集合中每个样本视频的检测结果和每个样本视频对应的真伪标签,对初始视频检测模型进行迭代训练,得到视频检测模型,由此使得初始时检测模型既能够充分学习能够充分学习样本视频在空域上的静态特征而具备准确提取反映人脸外观的脸部情绪特征,又能够充分学习样本视频在时域上的动态特征而具备准确提取反映人脸动态动作的脸部动作特征,以及具备结合这两类特征准确识别视频的能力,进而避免初始视频检测模型陷入对某些特定分布的深度伪造特征过拟合的状态,使得训练所得的视频检测模型具有较高的检测准确率和通用性,从而有利于提高基于该视频检测模型的视频检测的准确率和通用性。
[0020]第三方面,本申请实施例提供一种视频检测装置,包括:
[0021]第一图像获取单元,用于获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;
[0022]第一空域特征提取单元,用于通过视频检测模型对所述至少一帧视频图像进行特征提取,得到目标人脸的脸部情绪特征;
[0023]第一时域特征提取单元,用于通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;
[0024]第一检测单元,用于至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。
[0025]第四方面,本申请实施例提供一种视频检测模型的训练装置,包括:
[0026]样本获取单元,用于获取样本视频集合和所述样本视频集合中每个样本视频对应
的真伪标签,所述样本视频集合包括真实视频和多种伪造视频,所述多种伪造视频与多种人脸伪造算法一一对应,每种伪造视频是基于对应的人脸伪造算法对所述真实视频进行伪造处理后得到的;
[0027]第二图像获取单元,用于获取目标样本视频中样本人脸的至少一帧视频图像和基于时序排列的样本人脸的多帧第二光流图像;
[0028]第二空域特征提取单元,用于通过初始视频检测模型对所述目标样本视频中样本人脸的至少一帧视频图像进行特征提取,得到所述样本人脸的脸部情绪特征;
[0029]第二时域特征提取单元,用于通过所述初始视频检测模型对所述目标样本视频中样本人脸的多帧第二光流图像进行特征提取,得到所述样本人脸的脸部动作特征;
[0030]第二检测单元,用于至少基于所述目标样本视频中样本人脸的脸部情绪特征和脸部动作特征,确定所述目标样本视频的检测结果;
[0031]训练单元,用于基于所述样本视频集合中每个样本视频的检测结果和所述每个样本视频对应的真伪标签,对所述初始视频检测模型进行迭代训练,得到视频检测模型。
[0032]第五方面,本申请实施例提供一种电子设备,包括:
[0033]处理器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频检测方法,其特征在于,包括:获取待检测视频中目标人脸的至少一帧视频图像和基于时序排列的目标人脸的多帧第一光流图像;通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征;至少基于所述目标人脸的脸部情绪特征和脸部动作特征,确定所述待检测视频的检测结果。2.根据权利要求1所述的方法,其特征在于,所述至少基于所述目标人脸的脸部情绪特征和所述脸部动作特征,确定所述待检测视频的检测结果,包括:基于所述至少一帧视频图像,确定所述目标人脸的瞳孔大小;基于所述目标人脸的脸部情绪特征及瞳孔大小,确定所述待检测视频的第一检测结果;基于所述目标人脸的脸部动作特征以及所述待检测视频的语音数据,确定所述待检测视频的第二检测结果;基于所述第一检测结果和所述第二检测结果,确定所述待检测视频的检测结果。3.根据权利要求2所述的方法,其特征在于,所述基于所述目标人脸的脸部情绪特征及瞳孔大小,确定所述待检测视频的第一检测结果,包括:通过所述视频检测模型中的情绪识别网络对将所述目标人脸的脸部情绪特征进行情绪识别,得到所述目标人脸的情绪状态;基于所述目标人脸的情绪状态与所述目标人脸的瞳孔大小之间的匹配状态,确定所述待检测视频的第一检测结果。4.根据权利要求2所述的方法,其特征在于,所述基于所述至少一帧视频图像,确定所述目标人脸的瞳孔大小,包括:基于预设图像分割算法,从所述至少一帧视频图像中分割出所述目标人脸的眼部区域;基于预设边缘检测算法对所述目标人脸的眼部区域进行边缘检测,以得到所述目标人脸的瞳孔边界;基于预设拟合算法和所述目标人脸的瞳孔边界,对所述眼部区域进行拟合处理,得到所述目标人脸的瞳孔大小。5.根据权利要求2所述的方法,其特征在于,所述基于所述目标人脸的脸部动作特征以及所述待检测视频的语音数据,确定所述待检测视频的第二检测结果,包括:通过所述视频检测模型的语音识别网络对所述待检测视频的语音数据进行语音识别,得到所述语音数据对应的目标脸部动作特征;基于所述目标人脸的脸部动作特征与所述语音数据对应的目标脸部动作特征之间的匹配状态,确定所述待检测视频的第二检测结果。6.根据权利要求1所述的方法,其特征在于,所述通过视频检测模型对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征,包括:
通过所述视频检测模型中的空间流网络对所述至少一帧视频图像进行特征提取,得到所述目标人脸的脸部情绪特征;通过所述视频检测模型对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征,包括:通过所述视频检测模型中的时间流网络对所述多帧第一光流图像进行特征提取,得到所述目标人脸的脸部动作特征。7.根据权利要求1所述的方法,其特征在于,所述获取待检测视频中目标人脸的至少一帧视频图像,包括:将所述待检测视频划分为多个视频片段;对每个所述视频片段中目标人脸的多帧RGB图像进行随机采样,得到多个候选单帧视频图像;根据所述多个候选单帧视频图像确定所述至少一帧视频图像。8.根据权利要求1所述的方法,其特征在于,所述基于时序排列的目标人脸的多帧第一光流图像,包括:将所述待检测视频划分为多个视频片段;对每个所述视频片段中目标人脸的多帧灰度图像进行随机采样,得到...

【专利技术属性】
技术研发人员:李艾仑王洪斌吴至友皮家甜曾定衡
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1