一种基于强化学习DQN算法的Deepfake检测方法技术

技术编号:29836987 阅读:23 留言:0更新日期:2021-08-27 14:26
本发明专利技术涉及机械学习技术领域,具体涉及一种基于强化学习DQN算法的Deepfake检测方法,包括如下步骤:步骤1,采集样本数据划分为训练集S和测试集T;步骤2,将训练集S输入Q网络,将训练集S的[状态‑动作对](s

【技术实现步骤摘要】
一种基于强化学习DQN算法的Deepfake检测方法
本专利技术涉及机械学习
,具体涉及一种基于强化学习DQN算法的Deepfake检测方法。
技术介绍
Deepfake就是深度学习(Deep-learning)与假冒(fake)的组合,它可以将目标人物面部的图像叠加到视频原人物面部的相应位置,从而创建包含目标人物的视频,随着Deepfake技术不断加强,人们已经很难用肉眼去分辨一些假的图片或者视频了,而网络上又存在着大量的deepfake视频,荷兰网络安全公司DeepTrace在2019年发现1.4万多个深度伪造视频,较2018年增加了84%,该技术被滥用的现象日益严重。因此对这些假的图片或视频的检测就显得尤为重要。目前的Deepfake检测技术主要分为三类,即帧内检测,帧间检测以及一些浅层方法检测。帧内检测如伪影检测,是对每一帧的图片在Deepfake的过程中面部周围所产生的伪影进行检测,这种方法的优点是训练过程中的负样本可以通过强化Deepfake产生伪影的过程来得到,从而节省了大量的时间,而且伪影是广泛存在于Deepfake图片以及Deepfake视频中的,因此这种方法能对不同来源的假图片或假视频做到有效的检测。但这种方法也有缺点,就是它可能会对可能会对某些特定分布的Deepfake图片或视频过拟合。帧间检测如眨眼检测,就是对视频中的人物在一定时间内的眨眼动作进行捕捉,假视频中的人物可能会出现长时间不眨眼的情况,从而分辨出是假视频,这种方法的缺点是只要在Deepfake视频的训练过程中加入大量的眨眼数据,假视频中的人物就可以像真视频中的人物一样的眨眼了,那么这种方法也就无效了。还有一些浅层方法如三维头部姿态分析,就是利用假视频中人脸和头部外轮廓的姿态差异来分辨出哪个假视频。这类方法能够从较低的数据维度对真伪视频人脸做出分类,且模型训练用时较短,但应用场景有限且不能应对高质量的深度伪造视频。强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。本专利技术用到的是强化学习中的DQN算法,DQN算法是GoogleDeepMind团队在2013年提出来的第一个深度强化学习算法,并在2015年得到了很好的完善。在Atrari游戏中,DQN取得了惊人的实战表现,并由此引发了研究深度强化学习的热潮。深度强化学习算法是把神经网络与Q-learning算法相结合,利用神经网络对图像的强大的表征能力,把视频帧数据作为强化学习中的状态,并作为神经网络模型的输入;随后神经网络模型输出每个动作对应的价值(Q值),得到要执行的动作。
技术实现思路
本专利技术为了克服现有的Deepfake检测技术模型训练过程复杂且容易过拟合,应用场景不够全面的问题,本专利技术提供了一种基于强化学习DQN算法的Deepfake检测方法。为实现上述目的,本专利技术采用的技术方案是:一种基于强化学习DQN算法的Deepfake检测方法,包括如下步骤:步骤1,数据预处理:采集样本数据,将样本数据预处理后划分为训练集S和测试集T,并提取类别标签;步骤2,训练Q网络:将训练集S输入Q网络,将训练集S的[状态-动作对](si,ai)和Q网络输出的Q(si,ai′)输入到判别器D中,获得置信度(Confidence)δ;用置信度δ反向传播梯度不断求导更新Q网络的模型参数θi,直至损失函数收敛,得到Q网络检测模型;步骤3,测试Q网络:将测试集T输入Q网络检测模型中,通过Q网络输出的动作值比对测试集T的类标,计算Q网络检测模型的识别准确率;步骤4,将Q网络检测模型应用于Deepfake的真假判别中。本专利技术通过强化学习DQN算法用一组真假已知的样本来训练一个Q网络,用的判别器D作为损失函数loss,通过强化学习DQN算法更新Q值,最终使Q网络训练成为一个能对视频或图片的真假做出判断的模型。优选地,步骤1中,所述样本数据为FaceForensics++数据集,FaceForensics++包含了由Face2Face,FaceSwap,DeepFakes和NeuralTextures四种目前最常见的虚假视频生成算法生成的1000对真假视频。进一步优选地,步骤1中,数据预处理的过程具体包括:采集FaceForensics++数据集作为样本数据集,对于视频MP4格式的样本数据,用opencv每5帧提取一张图片,再用dlib工具提取图片中的人脸,并进行人脸对齐,输出训练集S和测试集T,并对数据的类别进行one-hot编码,获取对应的类别标签序列。优选地,步骤1中,采用SVD压缩算法对训练集S和测试集T中的图片进行图压缩操作;这样做的目的是放大真实人脸与deepfake生成的人脸的差异,加速模型的训练。训练集S和测试集T按照5:1划分。测试集T用于测试Q网络的决策效果。在本专利技术中,为了能够更快的达到模型训练的效果,采用一个判别器D来作为Q网络的损失函数,提高模型训练的效率。因此优选地,步骤2中,判别器D作为Q网络的损失函数。优选地,步骤2中,损失函数的公式为:L(θ)=E[(TargetQ-Q(s,a,θ))2]TargetQ=r+γmasa′Q(s′,a′,θ)其中,θ为神经网络模型的权重参数,TargetQ为目标Q值,s′是下一次迭代时输入的状态值,a′为下一次迭代时的动作值,r为当前迭代的奖励值,γ为折扣因子。优选地,步骤2中,训练Q网络的过程具体包括:2-1,训练集S的[状态-动作对](si,ai)输入到Q网络中,Q网络输出[状态-动作对]Q(si,a′i),其中s为图片的真实标签,a表示将会采取的动作;2-2,将训练集S的[状态-动作对](si,ai)和Q网络输出[状态-动作对]Q(si,a′i)输入到判别器中,对于每一个输入的[状态-动作对],判别器D会输出一个置信度δ;2-3,用判别器D输出的置信度δ反向传播梯度求导更新Q网络的模型参数θi,Q网络输出的Q(si,a′i)中的动作值a′i会发生改变,更加接近训练集S的QTable(si,ai)中的动作值ai,判别器D输出的置信度δ′i也会更加接近置信度δi,不断迭代这个过程,当δ′i与δi的值十分接近时,即直到损失函数收敛,对Q网络的训练结束,得到Q网络得到Q网络检测模型。与现有技术相比,本专利技术具有以下有益效果:(1)采用强化学习的方法来训练模型,使得模型的训练过程相对简单,不需要设计复杂的框架结构。(2)泛化能力强,应用场景广泛。附图说明图1为本专利技术基于强化学习DQN算法的Deepfake检测方法的示意图。图2为本专利技术的Deepfake检测方法的Q网络整体结构示意图。图3为本专利技术的Deepfake检测方法的判别器D的网络整体结构的示意图。<本文档来自技高网
...

【技术保护点】
1.一种基于强化学习DQN算法的Deepfake检测方法,其特征在于,包括如下步骤:/n步骤1,数据预处理:采集样本数据,将样本数据预处理后划分为训练集S和测试集T,并提取类别标签;/n步骤2,训练Q网络:将训练集S输入Q网络,将训练集S的[状态-动作对](s

【技术特征摘要】
1.一种基于强化学习DQN算法的Deepfake检测方法,其特征在于,包括如下步骤:
步骤1,数据预处理:采集样本数据,将样本数据预处理后划分为训练集S和测试集T,并提取类别标签;
步骤2,训练Q网络:将训练集S输入Q网络,将训练集S的[状态-动作对](si,ai)和Q网络输出的Q(si,a′i)输入到判别器D中,获得置信度δ;用置信度δ反向传播梯度不断求导更新Q网络的模型参数θi,直至损失函数收敛,得到Q网络检测模型;
步骤3,测试Q网络:将测试集T输入Q网络检测模型中,通过Q网络输出的动作值比对测试集T的类标,计算Q网络检测模型的识别准确率;
步骤4,将Q网络检测模型应用于Deepfake的真假判别中。


2.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤1中,所述样本数据为FaceForensics++数据集。


3.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤1中,数据预处理的过程具体包括:
采集FaceForensics++数据集作为样本数据集,对于视频MP4格式的样本数据,用opencv每5帧提取一张图片,再用dlib工具提取图片中的人脸,并进行人脸对齐,输出训练集S和测试集T,并对数据的类别进行one-hot编码,获取对应的类别标签序列。


4.根据权利要求1所述的基于强化学习DQN算法的Deepfake检测方法,其特征在于,步骤1中,采用SVD压缩算法对训练集S和测试集T中的图片进行图压缩操作;训练集S和测试集T按照5:1划分...

【专利技术属性】
技术研发人员:陈晋音王鹏程张任杰
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1