基于多模态特征融合的人脸深伪检测方法技术

技术编号:37114580 阅读:12 留言:0更新日期:2023-04-01 05:11
本发明专利技术涉及一种基于多模态特征融合的人脸深伪检测方法。本发明专利技术的目的是提供一种基于多模态特征融合的人脸深伪检测方法。本发明专利技术的技术方案为:该检测方法其特征在于:获取待检测图像;将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;所述人脸深伪检测模型,包括RGB纹理特征提取模块、SRM高频噪声特征提取模块、DCT频域感知特征提取模块、低维度多尺度特征交互模块、跨模态特征融合模块和分类模块。本发明专利技术适用于深度伪造检测领域。本发明专利技术适用于深度伪造检测领域。本发明专利技术适用于深度伪造检测领域。

【技术实现步骤摘要】
基于多模态特征融合的人脸深伪检测方法


[0001]本专利技术涉及一种基于多模态特征融合的人脸深伪检测方法。适用于深度伪造检测领域。

技术介绍

[0002]随机互联网的快速发展,数字媒体信息在其中的传播也越来越迅速和广泛,伴随着深度学习以及神经网络的发展,出现了神经网络驱动生成的虚假图像和视频人脸,这些图像和视频甚至人眼无法区分。这类方法对影视行业以及艺术创作等等提供了新的思路和方法,但恶意传播深度伪造数字媒体会导致社会出现安全问题甚至信任危机,因此如何鉴别互联网中传播的数字媒体的真实性,开发有效的人脸深度伪造检测方法成为亟待解决的问题。
[0003]一系列早期的人脸深度伪造检测方法依赖于手工制作的特征,例如局部模式分析、噪声方差评估、隐写分析特征等,来发现伪造模式并放大真实和伪造图像之间的微弱差异,具有比较强的可解释性,但目前没有一种传统方法能够应对所有的图像深度伪造技术,通常只能针对某种特定的伪造方法进行检测,适用条件比较有限。
[0004]深度学习引入了另一种途径来应对这一挑战,最近基于学习的深度伪造检测方法尝试使用RGB作为输入,利用卷积神经网络(CNN)挖掘特征空间中的伪造模式,在公共数据集上取得了显着进展,但目前最先进的人脸深度伪造算法,已经能够隐藏伪造的伪影,使其变得非常难以识别。更糟糕的是,如果伪造人脸的视觉质量大幅下降,例如压缩比大的JPEG或H264压缩,伪造伪影将被压缩污染,有时无法在RGB域中捕获,伪造检测模型泛化性差,从而限制了更广泛的应用。

技术实现思路

[0005]本专利技术要解决的技术问题是:针对上述存在的问题,提供一种基于多模态特征融合的人脸深伪检测方法。
[0006]本专利技术所采用的技术方案是:一种基于多模态特征融合的人脸深伪检测方法,其特征在于:
[0007]获取待检测图像;
[0008]将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;
[0009]所述人脸深伪检测模型,包括:
[0010]RGB纹理特征提取模块,用于提取待检测图像的RGB纹理特征;
[0011]SRM高频噪声特征提取模块,用于提取待检测图像的SRM高频噪声特征;
[0012]DCT频域感知特征提取模块,用于提取待检测图像的DCT频域感知特征;
[0013]低维度多尺度特征交互模块,用于对各提取模块提取的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征在空间维度和通道维度上进行注意力加权交互;
[0014]跨模态特征融合模块,用于融合所述低维度多尺度特征交互模块输出的经加权的
RGB纹理特征、SRM高频噪声特征和DCT频域感知特征,得到融合特征;
[0015]分类模块,用于基于所述跨模态特征融合模块输出的融合特征进行分类判断,输出检测判断结果。
[0016]所述在空间维度上进行注意力加权交互,包括:
[0017]将提取的图像特征分别与对应空间Attention特征图ATT
s
做乘法,再将对应通道相加得到空间维度注意力加权后的空间交互特征图X
s

[0018]ATT
s
=σ(conv7×7(AVGPool(X')))
[0019]其中,AVGPool为平均池化操作;conv7×7为7x7卷积;σ为sigmoid函数;X'为输入特征;ATT
s
为空间Attention特征图。
[0020]所述在通道维度上进行注意力加权交互,包括:
[0021]对空间交互特征图X
s
求取通道权重ATT
c

[0022]ATT
c
=conv(σ(AVGPool(conv(X
s
))))
[0023]其中,conv为卷积操作;AVGPool为平均池化操作;σ为sigmoid函数;
[0024]空间交互特征图X
s
与通道权重相乘得到,得到经空间维度和通道维度注意力加权的交互特征图X
sc

[0025]所述融合所述低维度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征,包括:
[0026]先将加权的RGB纹理特征和SRM高频噪声特征进行第一次融合,再将第一次融合后的融合结果与经加权的DCT频域感知特征进行第二次融合,得到融合特征。
[0027]所述人脸深伪检测模型训练时引入带监督的对比损失并结合二进制交叉熵损失共同优化,总的损失为:
[0028]L=L
bce
+λL
sup
[0029]其中,L
bce
为二进制交叉熵损失;L
sup
为有监督对比损失;λ为平衡loss超参;
[0030][0031][0032]其中,N为样本数;i、j、k分别为具体样本;为label;z
i
为模型预测结果,τ为温度系数。
[0033]一种基于多模态特征融合的人脸深伪检测装置,其特征在于,包括:
[0034]图像获取模块,用于获取待检测图像;
[0035]模型预测模块,用于将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;
[0036]所述人脸深伪检测模型,包括:
[0037]RGB纹理特征提取模块,用于提取待检测图像的RGB纹理特征;
[0038]SRM高频噪声特征提取模块,用于提取待检测图像的SRM高频噪声特征;
[0039]DCT频域感知特征提取模块,用于提取待检测图像的DCT频域感知特征;
[0040]低维度多尺度特征交互模块,用于对各提取模块提取的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征在空间维度和通道维度上进行注意力加权交互;
[0041]跨模态特征融合模块,用于融合所述低维度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征,得到融合特征;
[0042]分类模块,用于基于所述跨模态特征融合模块输出的融合特征进行分类判断,输出检测判断结果。
[0043]一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于多模态特征融合的人脸深伪检测方法的步骤。
[0044]一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于多模态特征融合的人脸深伪检测方法的步骤。
[0045]本专利技术的有益效果是:本专利技术通过提取样本的RGB纹理特征捕捉篡改媒体的纹理信息,提取SRM高频噪声特征暴露篡改区域和真实区域之间的统计差异,提取DCT频域感知特征来捕获被污染的伪造伪影,不同的特征对不同的篡改手段都有各自更加关注的区域,三种特征相互弥补,提高了特征的适用条件。
[0046]浅层网络提取的特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态特征融合的人脸深伪检测方法,其特征在于:获取待检测图像;将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;所述人脸深伪检测模型,包括:RGB纹理特征提取模块,用于提取待检测图像的RGB纹理特征;SRM高频噪声特征提取模块,用于提取待检测图像的SRM高频噪声特征;DCT频域感知特征提取模块,用于提取待检测图像的DCT频域感知特征;低维度多尺度特征交互模块,用于对各提取模块提取的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征在空间维度和通道维度上进行注意力加权交互;跨模态特征融合模块,用于融合所述低维度多尺度特征交互模块输出的经加权的RGB纹理特征、SRM高频噪声特征和DCT频域感知特征,得到融合特征;分类模块,用于基于所述跨模态特征融合模块输出的融合特征进行分类判断,输出检测判断结果。2.根据权利要求1所述的基于多模态特征融合的人脸深伪检测方法,其特征在于,所述在空间维度上进行注意力加权交互,包括:将提取的图像特征分别与对应空间Attention特征图ATT
s
做乘法,再将对应通道相加得到空间维度注意力加权后的空间交互特征图X
s
;ATT
s
=σ(conv7×7(AVGPool(X')))其中,AVGPool为平均池化操作;conv7×7为7x7卷积;σ为sigmoid函数;X'为输入特征;ATT
s
为空间Attention特征图。3.根据权利要求2所述的基于多模态特征融合的人脸深伪检测方法,其特征在于,所述在通道维度上进行注意力加权交互,包括:对空间交互特征图X
s
求取通道权重ATT
c
;ATT
c
=conv(σ(AVGPool(conv(X
s
))))其中,conv为卷积操作;AVGPool为平均池化操作;σ为sigmoid函数;空间交互特征图X
s
与通道权重相乘得到,得到经空间维度和通道维度注意力加权的交互特征图X
sc
。4.根据权利要求1所述的基于多模态特征融合的人脸深伪检测方法,其特征...

【专利技术属性】
技术研发人员:龚健何覃吕永标
申请(专利权)人:杭州中科睿鉴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1