篡改视频检测方法技术

技术编号:24708985 阅读:13 留言:0更新日期:2020-07-01 00:06
本发明专利技术公开了一种篡改视频检测方法,包括:对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像;将提取到的人脸图像输入至预训练卷积神经网络模型,来提取反映人脸区域的空间不连续特性的特征;将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。

【技术实现步骤摘要】
篡改视频检测方法
本专利技术涉及网络空间安全
,尤其涉及一种篡改视频检测方法。
技术介绍
随着深度学习技术快速发展,越来越多的人可以利用基于机器学习的软件工具轻松篡改视频人脸,图像造假代价小,影响大,很容易造成不可预估的后果。这些逼真的虚假视频可能会制造恐慌和政治困境,虚假信息故意制造谎言然后在真相的掩护下传播,这势必将造成假新闻的泛滥和社会的恐慌,虚假视频的过度传播将会威胁群众对客观现实的信心。作为新兴的网络安全威胁载体,虚假视频因其独特的存在形式更容易让群众相信,因此一旦广泛传播则造成的后果更加严重。随着视频造假技术的不断发展,更加逼真的deepfake视频,对社会安定构成了极大的挑战。虚假视频的泛滥以及各种不可预估的后果,也引导了许多鉴别这些虚假视频的技术方法的诞生和发展。根据人体的生理特性很难被模仿的特点,提出基于人物眼睛眨眼频率的检测进而发展到根据人物在说话时唇形的动作瑕疵明显,进一步提出的根据“软性生物识别”标签,即人们在说话时产生的头、手、眼睛和唇形等微妙变化是创造虚假视频时候暂时未考虑到的元素,以及加上对视频声音元素的分析,在一段时间内的确能准确检测出虚假视频,但是随着造假技术发展迅猛这些方法显然已经难以满足要求。传统的基于图像的检测模型例如VGG网络、facenet算法、以及结合图像质量检测和支持向量机的技术错误率极高,远远达不到实际应用的要求。
技术实现思路
本专利技术的目的是提供一种篡改视频检测方法,具有较高的检测准确度。本专利技术的目的是通过以下技术方案实现的:一种篡改视频检测方法,包括:对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像;将提取到的人脸图像输入至预训练卷积神经网络模型,来提取反映人脸区域的空间不连续特性的特征;将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。由上述本专利技术提供的技术方案可以看出,对视频的预处理非常简单,完全不需要人工设计和提取特征且该方法充分利用视频帧内空间特征以及视频帧间的时间特征,自动提取空间维度的视频人脸区域不一致特征以及时间维度的视频人脸区域不连续特征并进行分类,可以端到端的训练。此外,该方法不依赖特定的人类先验知识,具有更好的泛化性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种篡改视频检测方法的模型结构示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。为了针对日益成熟的deepfake视频篡改技术,提高视频自动化检测精度,减轻人工审核的负担,本专利技术实施例提供一种篡改视频检测方法,通过CNN与RNN提取视频帧内的空间特征与视频帧间的时间特征,利用时空特征能够更精确更有效的检测篡改视频。如图1所示,为本专利技术实施例提供的一种篡改视频检测方法的模型结构示意图,主要包括如下三个部分:1、视频预处理。本专利技术实施例中,对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像。示例性的,分帧操作通过ffmpeg实现,ffmpeg为常规的计算机程序。本专利技术实施例中,通过分帧操作截取连续的视频帧可以更快速更有效的判断视频是否有篡改痕迹;为了提高模型的准确性能,使用一种保守的方案,即包含人脸的指定倍数范围的区域,再进行人脸对齐,得到对应的人脸图像。示例性的,指定倍数可以设为1.3倍,最终人脸图像的大小可以设为299×299,连续视频帧可以为N帧,N=10。2、人脸特征提取。本专利技术实施例中,将提取到的人脸图像输入至预训练卷积神经网络模型(CNN),来提取反映人脸区域的空间不连续特性的特征。本专利技术实施例中,预训练卷积神经网络模型包括:在Imagenet分类任务上的预训练卷积神经网络模型Xception,所述Xception能够将通道关系映射和空间关系映射完全解耦,Xception使用了多个深度可分离卷积结构构成特征提取器,特征提取器内的深度可分离卷积结构(depthwiseseparable)使用残差连接,从而能够捕捉人脸区域的空间不连续特性的特征,Xception最后池化层输出的特征将输入至长短期记忆网络模型。示例性的,Xception网络使用36个深度可分离卷积层来提取以构成基本的特征提取器,在Xception网络中除了第一个和最后一个模块外所有的模块均使用残差连接。简而言之,Xception网络是具有残差连接的深度可分离层的线性堆叠,它可以充分捕捉篡改后人脸图片不一致性的特征。在本示例中,使用ImageNet预训练模型输出每帧人脸区域的特征表示,去掉Xception网络顶部的全连接层,获取最后一个池化层之后的2048维特征向量。3、篡改视频检测。将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络(LSTM)模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。本专利技术实施例中,LSTM模型是一种RNN(循环神经网络),它与softmax层中设有dropdout全连接层,一并构成了视频检测单元;视频检测单元的损失函数采用交叉熵损失函数。由于LSTM模型是本专利技术中的一个内部单元,因此可以不需要任何辅助的损失函数来进行端到端地训练。篡改视频检测主要原理为:对于篡改的人脸视频,每帧数据人脸篡改时视频帧之间是相互独立无关的,篡改后的视频在人脸区域缺乏时间上的一致性。因此,对于篡改后的虚假视频检测,使用能够捕捉时间特性的LSTM模型来进行二分类任务识别检测。在本示例中,将Xception提取的2048维人脸区域特征输入LSTM单元,使用连续N=10帧人脸进行篡改视频检测。在LSTM后添加一个512维的dropdout全连接层,最后使用softmax计算待检测视频是否经过篡改,最后输出至2维的全连接层使用softmax归一化可以得到真实和篡改两个类别的概率。本专利技术实施例中,全连接层需要跟随网络一起训练,从而能够从时空特性来区分输入的特征,Softmax应用于分类任务是一种很常规的技术,它将多个神经元的输出通过softmax函数作用映射为0到1之间的值,并且这些值的累计和为1(满足概率性质)。比如两个神经元的输出值为0.9和0.5,通过soft本文档来自技高网...

【技术保护点】
1.一种篡改视频检测方法,其特征在于,包括:/n对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像;/n将提取到的人脸图像输入至预训练卷积神经网络模型,来提取反映人脸区域的空间不连续特性的特征;/n将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。/n

【技术特征摘要】
1.一种篡改视频检测方法,其特征在于,包括:
对待检测视频进行分帧操作,并从分帧操作得到的连续视频帧中提取人脸区域,从而得到每一视频帧中的人脸图像;
将提取到的人脸图像输入至预训练卷积神经网络模型,来提取反映人脸区域的空间不连续特性的特征;
将卷积神经网络提取到的特征输入至能够捕捉时间特性的长短期记忆网络模型中,输出的人脸图像的时空特征通过softmax层来计算待检测视频是否被篡改,得到真实和篡改两个类别的概率。


2.根据权利要求1所述的一种篡改视频检测方法,其特征在于,所述分帧操作通过ffmpeg实现,所提取的人脸区域为包含人脸的指定倍数范围的区域,再进行人脸对齐,得到对应的人脸图像。


3.根据权利要求1所...

【专利技术属性】
技术研发人员:毛震东张勇东王凯
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1