基于多模型两次融合的人脸深伪检测方法技术

技术编号:36611292 阅读:17 留言:0更新日期:2023-02-08 09:59
本发明专利技术涉及一种基于多模型两次融合的人脸深伪检测方法。本发明专利技术的技术方案为提供一种具有更高的准确率、泛化性和鲁棒性的基于多模型两次融合的人脸深伪检测方法,其特征在于:获取待检测图像;将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;所述人脸深伪检测模型包括基于CNN的人脸深伪检测基模型Ⅰ、基于VIT的人脸深伪检测基模型Ⅱ和基于CNN+VIT的人脸深伪检测基模型Ⅲ,以及用于融合基模型Ⅰ、Ⅱ、Ⅲ预测结果得到检测判断结果的元学习器;所述基模型Ⅰ、Ⅱ、Ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,将各基模型对应的多个初级模型融合得到经训练的相应基模型。本发明专利技术适用于人脸深度伪造检测领域。域。域。

【技术实现步骤摘要】
基于多模型两次融合的人脸深伪检测方法


[0001]本专利技术涉及一种基于多模型两次融合的人脸深伪检测方法。适用于人脸深度伪造检测领域。

技术介绍

[0002]随机互联网的快速发展,数字媒体信息在其中的传播也越来越迅速和广泛,伴随着深度学习以及神经网络的发展,出现了神经网络驱动生成的虚假图像和视频人脸,这些图像和视频甚至人眼无法区分。这类方法对影视行业以及艺术创作等等提供了新的思路和方法,但恶意传播深度伪造数字媒体会导致社会出现安全问题甚至信任危机,因此如何鉴别互联网中传播的数字媒体的真实性,开发有效的人脸深度伪造检测方法成为亟待解决的问题。
[0003]早期的人脸深度伪造检测方法依赖于具有丰富经验的专家,针对特定的伪造方法设计出具有代表性的特征,使得特征之间具备可区分性。然而随着人脸伪造生成技术的发展,伪造方法越来越多样化,不同伪造方法之间的差异也越来越大。这种方法费时费力,难以适应新的发展,不具备泛化性和鲁棒性。
[0004]深度学习的发展特别是卷积神经网络(CNN)的发展,引入了另一种途径来应对这一挑战。CNN是一种分层的数据表示方式,高层的特征表示依赖于底层的特征表示,由浅入深逐步抽象地提取更具备高级语义信息的特征。CNN在提取特征时一方面通过权重共享,极大的降低参数量来避免更多冗余的计算从而提高网络模型计算的效率,另一方面又结合卷积和池化的局部相关特性,使网络具备一定的平移不变性和平移等变性。CNN这两种强大的归纳偏置使得它即使使用非常少的数据也能实现高性能,目前是人脸深度伪造检测的主流方法。
[0005]Transformer是一种基于注意力的编码器

解码器架构,已在自然语言处理(NLP)领域广泛使用。与CNN相比,Transformer利用注意力的方式来捕获全局的上下文信息对目标建立起远距离的依赖,从而提取出更强有力的特征,具有出色的建模能力。基于Transformer的建模能力,视觉Transformer(ViT)也慢慢引入到图像识别领域。
[0006]CNN和VIT具有各自的优势,他们在解决某一类问题的能力上比较出色,但在解决另一类问题时,结果可能不尽如人意,使用单一模型很容易遇到模型泛化瓶颈。

技术实现思路

[0007]本专利技术要解决的技术问题是:针对上述存在的问题,提供一种具有更高的准确率、泛化性和鲁棒性的基于多模型两次融合的人脸深伪检测方法。
[0008]本专利技术所采用的技术方案是:一种基于多模型两次融合的人脸深伪检测方法,其特征在于:
[0009]获取待检测图像;
[0010]将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;
[0011]所述人脸深伪检测模型包括基于CNN的人脸深伪检测基模型Ⅰ、基于VIT的人脸深伪检测基模型Ⅱ和基于CNN+VIT的人脸深伪检测基模型Ⅲ,以及用于融合基模型Ⅰ、Ⅱ、Ⅲ预测结果得到检测判断结果的元学习器;
[0012]所述基模型Ⅰ、Ⅱ、Ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,将各基模型对应的多个初级模型融合得到经训练的相应基模型。
[0013]所述人脸深伪检测基模型Ⅰ基于ConvNext

s纯卷积网络构建;所述人脸深伪检测基模型Ⅱ基于Swint

Transformer

s纯注意力网络构建;所述人脸深伪检测基模型Ⅲ基于Coatnet_1卷积和注意力相结合网络构建。
[0014]所述基模型Ⅰ、Ⅱ、Ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,包括:
[0015]将模型训练用数据集分成K份,其中任意K

1份数据用于训练,剩余1份数据用于验证;
[0016]对应每组超参数,用K种不同的K

1份数据进行训练,得到该组超参数对应的K个模型;
[0017]基于K个模型在验证数据上的表现,选择其中一个模型作为该组超参数对应的初级模型。
[0018]所述将各基模型对应的多个初级模型融合得到经训练的相应基模型,包括:
[0019]采用贪婪算法将各基模型对应的多个初级模型进行加权融合,得到经训练的相应基模型。
[0020]所述元学习器的训练,包括:
[0021]将模型训练用数据集分成M份,其中任意M

1份数据用于训练,剩余1份数据用于验证;
[0022]对应每个基模型Ⅰ、Ⅱ、Ⅲ,均用M种不同的M

1份数据进行训练,得到M个预测模型,获取M个预测模型在相应验证数据上的预测结果;
[0023]将基模型Ⅰ、Ⅱ、Ⅲ对数据集中每份数据的预测结果作为训练集,训练元学习器。
[0024]一种基于多模型两次融合的人脸深伪检测装置,其特征在于,包括:
[0025]图像获取模块,用于获取待检测图像;
[0026]模型预测模块,用于将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;
[0027]所述人脸深伪检测模型包括基于CNN的人脸深伪检测基模型Ⅰ、基于VIT的人脸深伪检测基模型Ⅱ和基于CNN+VIT的人脸深伪检测基模型Ⅲ,以及用于融合基模型Ⅰ、Ⅱ、Ⅲ预测结果得到检测判断结果的元学习器;
[0028]所述基模型Ⅰ、Ⅱ、Ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,将各基模型对应的多个初级模型融合得到经训练的相应基模型。
[0029]一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于多模型两次融合的人脸深伪检测方法的步骤。
[0030]一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于多模型两次融合的人脸深伪检测方法的步骤。
[0031]本专利技术的有益效果是:本专利技术使用多种低相关性的基模型提取特征,并将不同超参训练的同一基模型融合,最后再通过元学习器融合多种基模型预测结果,得到预测结果,通过两次模型融合,充分融合不同基模型的性能优势,突破了单个模型对不同伪造类型的泛化能力的瓶颈,相比现有的人脸深度伪造检测技术而言具有更高的准确率、泛化性和鲁棒性性,提升了人脸深度伪造检测技术的性能。
[0032]CNN具有强大的归纳偏置,局部相关性和权重共享,使得即使使用非常少的数据也能实现高性能,但当存在大量数据时,这些归纳偏置就可能会限制模型。相比之下,Transformer具有出色的全局建模能力,具有最小的归纳偏置,这种灵活性让Transformer在大数据上性能优于CNN。本专利技术中使用CNN、VIT和CNN+VIT三种相关性较低的基模型,三种基模型互补,具备不同伪造类型的特征提取能力。
[0033]本专利技术中使用不同的超参训练得到多个模型,再对得到的多个模型使用贪婪算法加权融合得到最优模型,在不增加推理成本的同时,提高算法的准确率和鲁棒性。
[0034]本专利技术将多个基模型的预测结果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模型两次融合的人脸深伪检测方法,其特征在于:获取待检测图像;将待检测图像输入经训练的人脸深伪检测模型,得到检测判断结果;所述人脸深伪检测模型包括基于CNN的人脸深伪检测基模型Ⅰ、基于VIT的人脸深伪检测基模型Ⅱ和基于CNN+VIT的人脸深伪检测基模型Ⅲ,以及用于融合基模型Ⅰ、Ⅱ、Ⅲ预测结果得到检测判断结果的元学习器;所述基模型Ⅰ、Ⅱ、Ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,将各基模型对应的多个初级模型融合得到经训练的相应基模型。2.根据权利要求1所述的基于多模型两次融合的人脸深伪检测方法,其特征在于:所述人脸深伪检测基模型Ⅰ基于ConvNext

s纯卷积网络构建;所述人脸深伪检测基模型Ⅱ基于Swint

Transformer

s纯注意力网络构建;所述人脸深伪检测基模型Ⅲ基于Coatnet_1卷积和注意力相结合网络构建。3.根据权利要求1所述的基于多模型两次融合的人脸深伪检测方法,其特征在于,所述基模型Ⅰ、Ⅱ、Ⅲ在训练时均采用多组不同超参数训练得到多个初级模型,包括:将模型训练用数据集分成K份,其中任意K

1份数据用于训练,剩余1份数据用于验证;对应每组超参数,用K种不同的K

1份数据进行训练,得到该组超参数对应的K个模型;基于K个模型在验证数据上的表现,选择其中一个模型作为该组超参数对应的初级模型。4.根据权利要求1所述的基于多模型两次融合的人脸深伪检测方法,其特征在于,所述将各基模型对应的多个初级模型融合得到经训练的相...

【专利技术属性】
技术研发人员:龚健何覃吕永标
申请(专利权)人:杭州中科睿鉴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1