System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于Transformer架构的伪造人脸检测方法及装置制造方法及图纸_技高网

基于Transformer架构的伪造人脸检测方法及装置制造方法及图纸

技术编号:40668442 阅读:4 留言:0更新日期:2024-03-18 19:03
本发明专利技术涉及一种基于Transformer架构的伪造人脸检测方法及装置。所述方法包括:构建人脸数据集;对原始图片进行数据增强;将原始图片作为教师网络的输入,将增强图片作为学生网络的输入,并基于学生网络的预测结果与ground truth之间的差距,以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距,来训练学生网络,以得到预训练学生网络;将所述原始图片分别作为教师网络和预训练学生网络的输入,并基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距,来训练预训练学生网络,以得到训练后的学生网络;基于训练后的学生网络,获取待检测图片的人脸预测结果。本发明专利技术可以降低模型的参数需求与计算量,提升模型的鲁棒性。

【技术实现步骤摘要】

本专利技术属于人工智能算法设计领域,涉及应用软件伪造人脸检测,具体为一种基于transformer架构的伪造人脸检测方法及装置。


技术介绍

1、目前,随着人工智能、深度学习技术的发展,图像生成与伪造的技术也得到了极大的提升,其中又以针对人脸部分的伪造对网络信息安全的影响最为突出。伪造人脸主要通过人脸替换和人脸表情重演这两种方式伪造海量的图片与视频,人脸替换是指通过替换原始图片和视频中的人脸部分,保持背景、服饰、动作等不变,人脸表情重演则可以操纵原始图片和视频中的人物做出相应的表情,结合语音伪造技术可以生成以假乱真的视频。

2、transformer作为近两年来计算机视觉领域广泛使用的模型结构,对计算机视觉方面的主流任务都拥有较好的表现。在伪造人脸检测任务上,许多先进的模型都采用的transformer模型的架构。

3、尽管已有许多关于伪造人脸检测的相关研究,但现有的框架还存在各种各样的问题。

4、(1)现有模型在应对多质量的图片,即使用编码压缩的图片时,对低质量图片的分类精度不高,约为55%。

5、(2)现有模型的运行计算量较高,参数量较大,难以提升模型运行的速度,且对部署设备的显存需求较大。

6、(3)现有蒸馏框架少有针对伪造人脸任务,利用人脸任务的特点进行蒸馏操作。

7、(4)transformer架构的变种,如针对swin transformer模型的蒸馏框架目前依旧缺失。

8、针对以上内容,设计一种结合人脸伪造任务特点及swin transformer模型特点的知识蒸馏框架,可以在保留原教师网络对于图片分类能力的同时减少模型所需的参数及计算量,减少模型使用场景的限制,更充分的使用基于swin transformer模型架构的相关训练资源。


技术实现思路

1、针对现有人脸伪造检测模型的计算量大、模型参数多导致的运算速率低、难以部署的问题,以及现有模型的泛化能力较差,对不同压缩率的图片的预测结果差的问题,本专利技术提出了一种基于transformer架构的伪造人脸检测方法及装置。该方法可以在保持对多图片质量的分类准确率的情况下,大幅度降低模型的参数需求与计算量。此外,在知识蒸馏的过程中,本专利技术还增加了图片增强的操作,使得学生网络可以在教师网络的指导下应对更加困难的分类样本,提升模型的鲁棒性。

2、本专利技术的技术方案包括:

3、一种基于transformer架构的伪造人脸检测方法,所述方法包括:

4、构建人脸数据集,所述人脸数据集包含若干张原始图片;

5、对所述原始图片进行数据增强,得到增强图片;

6、将所述原始图片作为教师网络的输入,将该原始图片对应的增强图片作为学生网络的输入,并基于学生网络的预测结果与ground truth之间的差距,以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距,来训练学生网络,以得到预训练学生网络;

7、将所述原始图片分别作为教师网络和预训练学生网络的输入,并基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距,来训练预训练学生网络,以得到训练后的学生网络;

8、基于训练后的学生网络,获取待检测图片的人脸预测结果。

9、进一步地,所述教师网络的网络架构为ggvit。

10、进一步地,所述学生网络的网络架构为改进swin transformer;所述改进swintransformer是在swin transformer架构的基础上,将特征图分割成若干个区域,并在每一子特征图后添加一层全连接层。

11、进一步地,所述基于学生网络的预测结果与ground truth之间的差距,以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距,来训练学生网络,以得到预训练学生网络,包括:

12、使用第一交叉熵损失计算学生网络和ground truth之间的差距;其中,所述第一交叉熵损失s表示学生网络,xs表示增强图片,yc表示真实标签,c表示图片的真伪;

13、使用第一蒸馏损失计算教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距;其中,所述第一蒸馏损失xi表示原始图片x的第i个人脸区域,表示增强图片xaug的第i个人脸区域,ψ表示softmax函数,t表示教师网络,n表示人脸区域的总数量,t表示蒸馏温度,kl表示kl散度计算;

14、计算第一整体损失loss1=ldist+lce;

15、基于所述第一整体损失loss1训练学生网络,以得到预训练学生网络。

16、进一步地,所述基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距,来训练预训练学生网络,以得到训练后的学生网络,包括:

17、使用第二交叉熵损失计算预训练学生网络和ground truth之间的差距;其中,所述第二交叉熵损失x0表示原始图片,yc表示真实标签,c表示图片的真伪,s′表示预训练学生网络;

18、使用第二蒸馏损失计算教师网络与学生网络对原始图片的预测结果之间的差距;其中,所述第二蒸馏损失l′dist=t2kl(ψ(s′(x0)/t),ψ(t(x0)/t)),ψ表示softmax函数,t表示教师网络,t表示蒸馏温度,kl表示kl散度计算;

19、计算第二整体损失loss2=λl′dist-l′ce;其中,λ表示超参;

20、基于所述第二整体损失loss2训练预训练学生网络,以得到训练后的学生网络。

21、一种基于transformer架构的伪造人脸检测装置,所述装置包括:

22、构建模块,用于构建人脸数据集,所述人脸数据集包含若干张原始图片;

23、增强模块,用于对所述原始图片进行数据增强,得到增强图片;

24、第一训练模块,用于将所述原始图片作为教师网络的输入,将该原始图片对应的增强图片作为学生网络的输入,并基于学生网络的预测结果与ground truth之间的差距,以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距,来训练学生网络,以得到预训练学生网络;

25、第二训练模块,用于将所述原始图片分别作为教师网络和预训练学生网络的输入,并基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距,来训练预训练学生网络,以得到训练后的学生网络;

26、预测模块,用于基于训练后的学生网络,获取待检测图片的人脸预测结果。

27、一种电子设备,其特征在于,包括:处理器,以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现上述任一所述方法。

28、一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现上述任一所述方法。

29、与现有技术相比,本专利技术至少具有以下有益效果:

30、1.本专利技术可以生成控制本文档来自技高网...

【技术保护点】

1.一种基于Transformer架构的伪造人脸检测方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述教师网络的网络架构为GGViT。

3.如权利要求1所述的方法,其特征在于,所述学生网络的网络架构为改进Swintransformer;所述改进Swin transformer是在Swin transformer架构的基础上,将特征图分割成若干个区域,并在每一子特征图后添加一层全连接层。

4.如权利要求1所述的方法,其特征在于,所述基于学生网络的预测结果与groundtruth之间的差距,以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距,来训练学生网络,以得到预训练学生网络,包括:

5.如权利要求1所述的方法,其特征在于,所述基于教师网络与预训练学生网络对该原始图片的预测结果之间的差距,来训练预训练学生网络,以得到训练后的学生网络,包括:

6.一种基于Transformer架构的伪造人脸检测装置,其特征在于,所述装置包括:

7.一种电子设备,其特征在于,包括:处理器,以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现所述权利要求1-5任一所述方法。

8.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现所述权利要求1-5任一所述方法。

...

【技术特征摘要】

1.一种基于transformer架构的伪造人脸检测方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述教师网络的网络架构为ggvit。

3.如权利要求1所述的方法,其特征在于,所述学生网络的网络架构为改进swintransformer;所述改进swin transformer是在swin transformer架构的基础上,将特征图分割成若干个区域,并在每一子特征图后添加一层全连接层。

4.如权利要求1所述的方法,其特征在于,所述基于学生网络的预测结果与groundtruth之间的差距,以及教师网络与学生网络对图片中不同人脸区域的预测结果之间的差距,来...

【专利技术属性】
技术研发人员:吴昊天王鑫查达仁向继张正
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1