一种基于深度学习的视频对象移除篡改时空域定位方法技术

技术编号:27274435 阅读:20 留言:0更新日期:2021-02-06 11:40
本发明专利技术属于多媒体信息安全技术领域,具体涉及一种基于深度学习的视频对象移除篡改时空域定位方法,包括以下步骤:S1、训练时域定位模型和空域定位模型;S2、将待测视频输入至时域定位模型,以获取篡改帧序列;S3、将篡改帧序列输入空域定位模型,以获取篡改帧中的篡改区域定位结果。本发明专利技术可以从被篡改视频中检测出篡改帧,并在每一篡改帧中定位出被篡改区域。并在每一篡改帧中定位出被篡改区域。并在每一篡改帧中定位出被篡改区域。

【技术实现步骤摘要】
一种基于深度学习的视频对象移除篡改时空域定位方法


[0001]本专利技术属于多媒体信息安全
,具体涉及一种基于深度学习的视频对象移除篡改时空域定位方法。

技术介绍

[0002]近年来,视频监控作为公共甚至私家安防设备已经随处可见,但随着数字视频及图像处理技术的发展,给视频内容的完整性和真实性带来了很大的挑战。这些视频一旦被不法分子操纵,将对公共安全和司法取证造成巨大的影响。通常,这些视频经过高度的篡改操作后,人们通过肉眼无法辨别真假。因此,如何通过计算机来确保视频的真实性和完整性是非常重要的。
[0003]数字视频是由具有一定空间结构和语义的视觉对象组成的,对视频对象的添加、删除或修改操作往往直接影响人们对视频内容的理解和认识。相比于双重压缩和基于帧的帧插入、帧删除和帧复制等视频篡改操作,基于视频对象篡改的取证研究更有应用价值和研究意义。而在视频中添加或修改运动对象往往会留下肉眼可见的痕迹,基于视频对象的移除篡改是更容易实现且不容易被肉眼分辨的。因此,针对视频对象被移除篡改的视频取证是非常有必要的。
[0004]数字视频取证技术可分为两类:主动取证和被动取证。而主动取证技术通常需要在视频录制的同时在视频中嵌入先验信息来确保视频的真实性,这种技术在很多实际应用中是难以满足的。被动取证则不需要依赖先验信息,而是仅凭数字视频本身来判断是否经过篡改操作。但是,数字视频的被动取证研究仍然处于起步阶段,尚有较大的探索和完善的空间。
[0005]本专利技术提供一种基于视频噪声流和3D CNN的算法,用来对视频对象移除型篡改的篡改区域进行时空域定位。首先,分别训练好篡改区域时域定位模型和空域定位模型;然后通过篡改区域时域定位模型找到视频中那些被篡改过的帧序列;最后使用篡改区域空域定位模型进一步在篡改帧中定位到具体的篡改区域。

技术实现思路

[0006]基于现有技术中存在的上述不足,本专利技术提供一种基于深度学习的视频对象移除篡改时空域定位方法。
[0007]一种基于深度学习的视频对象移除篡改时空域定位方法,包括以下步骤:
[0008]S1、训练时域定位模型和空域定位模型;
[0009]S2、将待测视频输入至时域定位模型,以获取篡改帧序列;
[0010]S3、将篡改帧序列输入空域定位模型,以获取篡改帧中的篡改区域定位结果。
[0011]作为优选方案,所述步骤S1中,时域定位模型和空域定位模型的训练,包括以下步骤:
[0012]S11、将视频数据集随机划分为制作训练集、验证集和测试集的视频序列;
[0013]S12、将制作训练集和验证集的视频序列分别按照时域定位算法和空域定位算法的输入要求制作出相应的训练集和验证集,采用各自的训练集和验证集分别对时域定位算法和空域定位算法进行训练和测试,得到时域定位模型和空域定位模型;
[0014]S13、将制作测试集的视频序列按照时域定位算法的输入要求制作测试集,输入至加载时域定位模型的时域定位算法进行测试,以获取篡改帧序列;
[0015]S14、将篡改帧序列按照空域定位算法的输入要求制作打包数据集,输入至加载空域定位模型的空域定位算法,以获取篡改帧中篡改区域定位结果。
[0016]作为优选方案,所述时域定位算法包括时空三叉戟网络和帧分类神经网络;
[0017]所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1
×3×
3;
[0018]时域定位算法输入为裁剪尺寸为5
×
(720
×
720)
×
3的数据块,其中3表示图像的通道数;输入数据经过时空三叉戟网络后将数据切片为3个分支的数据块;
[0019]3个分支的数据块输入帧分类神经网络的处理流程如下:3个分支的数据块流入3个权值共享的3D CNN网络结构中,同时提取连续3帧在时空域高频区域的特征,最后统一编码为128维的向量,使用双向长短期记忆网络BiLSTM来作为解码器,以解码器两个方向的输出状态之和作为解码输出,最后使用全连接层和SoftMax层将结果转化为二分类问题,以达到对篡改帧在视频时域进行定位,获取篡改帧序列。
[0020]作为优选方案,所述空域定位算法包括时空三叉戟网络和篡改区域定位神经网络;
[0021]所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1
×2×
2;
[0022]空域定位算法输入为进行翻转操作扩充后的连续5帧的篡改帧数据集,输入数据块尺寸大小为5
×
(720
×
1280)
×
3;输入数据经过时空三叉戟网络后数据分为三个分支流;
[0023]三个分支流输入篡改区域定位神经网络的处理流程如下:三个分支流通过权值共享的骨干网络3D-ResNet12将特征图在时域空间进行合并操作,三个分支流的特征图分别经过三个相互独立的RPN网络进行篡改区域回归定位。
[0024]作为优选方案,所述时空三叉戟网络在时域定位和空域定位中的预测理论基础,包括:在视频移除篡改时域定位中,输入连续五帧中,以中间帧为主帧,以前两帧和后两帧为辅助帧;若连续三帧均为篡改帧,其对应分支用0表示;若连续三帧均为篡改帧,其对应分支用1表示;若连续三帧中同时包含篡改帧和原始帧,则用X表示;
[0025]三个分支中,若至少有一个分支为1,则中间帧必为1,即篡改帧;
[0026]三个分支中,若至少有一个分支为0,则中间帧必为0,即原始帧;
[0027]三个分支中,若存在X,表示连续五帧中同时包含原始帧和篡改帧。
[0028]作为优选方案,为三个分支中存在X的情况设置一个帧权重:X_weight设置为1,其他情况设置为0,用于在Loss函数增加一个惩罚项。
[0029]作为优选方案,所述时域定位算法的Loss函数定义为:
[0030][0031]其中,N为输入数据的批大小,FL为Focal loss函数,用于主要的视频帧分类任务,其参数为预测结果序列preds、真实值标注序列labels、用于调节类别不平衡的参数α和用于调节难易样本不平衡的参数γ;CE为交叉熵函数,frame_weights为X-weight参本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,包括以下步骤:S1、训练时域定位模型和空域定位模型;S2、将待测视频输入至时域定位模型,以获取篡改帧序列;S3、将篡改帧序列输入空域定位模型,以获取篡改帧中的篡改区域定位结果。2.根据权利要求1所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,所述步骤S1中,时域定位模型和空域定位模型的训练,包括以下步骤:S11、将视频数据集随机划分为制作训练集、验证集和测试集的视频序列;S12、将制作训练集和验证集的视频序列分别按照时域定位算法和空域定位算法的输入要求制作出相应的训练集和验证集,采用各自的训练集和验证集分别对时域定位算法和空域定位算法进行训练和测试,得到时域定位模型和空域定位模型;S13、将制作测试集的视频序列按照时域定位算法的输入要求制作测试集,输入至加载时域定位模型的时域定位算法进行测试,以获取篡改帧序列;S14、将篡改帧序列按照空域定位算法的输入要求制作打包数据集,输入至加载空域定位模型的空域定位算法,以获取篡改帧中篡改区域定位结果。3.根据权利要求2所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,所述时域定位算法包括时空三叉戟网络和帧分类神经网络;所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1
×3×
3;时域定位算法输入为裁剪尺寸为5
×
(720
×
720)
×
3的数据块,其中3表示图像的通道数;输入数据经过时空三叉戟网络后将数据切片为3个分支的数据块;3个分支的数据块输入帧分类神经网络的处理流程如下:3个分支的数据块流入3个权值共享的3D CNN网络结构中,同时提取连续3帧在时空域高频区域的特征,最后统一编码为128维的向量,使用双向长短期记忆网络BiLSTM来作为解码器,以解码器两个方向的输出状态之和作为解码输出,最后使用全连接层和SoftMax层将结果转化为二分类问题,以达到对篡改帧在视频时域进行定位,获取篡改帧序列。4.根据权利要求3所述的一种基于深度学习的视频对象移除篡改时空域定位方法,其特征在于,所述空域定位算法包括时空三叉戟网络和篡改区域定位神经网络;所述时空三叉戟网络包括:设定输入形式为连续五帧三通道视频图像数据,首先经过三维最大池化层进行空域尺寸的降维,然后经过SRM层,SRM层为三个参数固定的卷积核构成的三维卷积层,分别输出三种不同的视频帧高频残差信号;最后使用切片操作,将输入时域维度为5的噪声图像进行切片,每连续3帧所产生的噪声图像切片为一个分支流,共切出三个分支流的噪声数据;其中,三维最大池化层步长设置为1
×2×
2;空域定位算法输入为进行翻转操作扩充后的连续5帧的篡改帧数据集,输入数据块尺寸大小为5
×
(720
×
12...

【专利技术属性】
技术研发人员:姚晔杨全鑫张竹溪张祯袁理锋陈临强
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利