一种基于全卷积网络和条件对抗网络的视频前景检测方法技术

技术编号:22847905 阅读:19 留言:0更新日期:2019-12-17 23:04
本发明专利技术公开了一种基于全卷积网络和条件对抗网络的视频前景检测方法,综合考虑了视频中的空间和时间特性,其步骤包括:1、获取具有前景标注的视频集,并预处理;2、建立基于全卷积网络静态检测网络,取视频中的单帧图片作为输入,以监督的方式训练静态检测网络,使其生成静态检测结果;3、建立基于条件生成对抗网络动态对抗网络,结合静态检测结果及其临近帧作为输入,以对抗学习的形式训练动态对抗网络的生成器和判别器,使生成器可以生成精确的检测结果;4、利用训练好的模型在CDnet2014公开数据集上进行测试实验。本发明专利技术通过对视频中的静态信息和动态信息的联合提取,完成对复杂视频场景中前景目标的精确检测。

A video foreground detection method based on full convolution network and conditional countermeasure network

【技术实现步骤摘要】
一种基于全卷积网络和条件对抗网络的视频前景检测方法
本专利技术涉及计算机视觉
,特别涉及一种基于全卷积网络和条件对抗网络的视频前景检测技术。
技术介绍
视频前景检测是计算机视觉领域的一个重要研究方向,其检测过程是从给定视频场景的背景中区分出运动前景对象,该过程可以被认为是以背景或前景的值为标签的二进制像素级的分类。在显著性检测、目标跟踪、人群分析、交通流、自动异常检测等视频监控领域中,视频前景检测发挥着重要的作用。目前,针对视频前景检测的算法主要分为两大类:基于背景建模的传统算法和基于深度学习模型的监督算法。传统的视频前景检测方一般利用手工设计的特征来进行背景建模,通过对比输入图片与背景模型区分出前景和背景。常用的手工视觉特征包括颜色、纹理、光流、边缘等。手工视觉特征由手动设计的滤波器来提取,且针对不同的场景滤波器是固定不变的。然而,真实视频中会存在动态背景、阴影、抖动、相机运动等复杂多变的场景。因此,在处理复杂的视频场景时,手动设计的滤波器提取的特征会存在大量噪声,使得建立的背景模型不能完全区分前景与背景。另外,背景建模过程中有大量超参数,针对不同场景都有不同的最优超参数。近年来,深度学习模型在计算机视觉各个领域中取得的显著的效果,一些研究人员已经将卷积神经网络(CNN)和生成对抗网络(GAN)应用于视频前景检测任务中。典型的基于CNN的视频前景检测方法有DeepBS和CascadeCNN,它们仅仅利用神经网络提取单帧图片的空间语义信息,而忽略了相邻帧之间的时间信息。视频中的前景目标往往具有劣化的外观(例如:运动模糊,相机失焦),仅仅从空间语义信息不能准确分割出前景目标。典型的基于GAN的方法有FgGAN和BScGAN,它们将背景图片视为特征提取的重要的先验,同样忽略了相邻帧之间的时间信息。另外,从非静止相机拍摄的视频场景中很难重构高质量的背景图片,这将影响检测结果的准确性。上述视频前景检测方法实现了运动目标的检测,然而在复杂场景下的检测精度均不高。
技术实现思路
本专利技术为克服现有技术的不足之处,提出一种基于全卷积神经网络和条件对抗网络的视频前景检测方法,旨在解决视频场景下前景与背景分割问题,通过构建静态检测网络和动态对抗网络,得到在复杂视频场景下检测精度良好的视频前景检测模型,从而实现视频中前景目标的自动检测。本专利技术为达到上述专利技术目的,采用如下技术方案:本专利技术一种基于全卷积网络和条件对抗网络的视频前景检测方法的的包括如下步骤:步骤1、视频数据收集和预处理:获取真实场景视频数据并进行归一化预处理,得到预处理后的视频序列,记为I={I1,I2,…,It,…,IT},其中,It表示第t帧视频图像,并记第t帧视频图像It所对应的前景标注为Gt,t=1,2,…,T;步骤2、建立基于全卷积网络的静态检测网络,将所述第t帧视频图像It所对应的前景标注Gt作为检测目标,以交叉商损失函数监督训练所述静态检测网络,从而生成静态检测结果;所述静态检测网络由编码器和解码器构成,所述编码器使用w个卷积层,所述解码器使用w个对应反卷积层;并将编码器每层的输出特征图映射到对称解码器的输入中,然后通过通道维度连接起来,从而构建跳跃连接结构;以第t帧视频图像It为静态检测网络的输入,经一层一通道卷积层和一层sigmoid层后得到第t帧视频图像的静态检测结果St;根据式(1)计算第t帧视频图像的静态检测结果St与对应前景标注Gt之间交叉商损失函数并作为训练所述静态检测网络的像素级监督损失,使用自适应矩估计优化方法以学习率lrs来更新所述静态检测网络的权值,并在损失值趋于稳定时完成对所述静态检测网络的训练;式(1)中,at为第t帧视频图像It中前景像素占总像素的比重;Gt(n)表示前景标注Gt中第n个像素值;St(n)表示静态预测结果St中第n个像素值;步骤3、建立基于条件生成对抗网络的动态对抗网络,结合静态检测结果St及第t帧视频图像It的临近帧作为输入用于训练所述动态对抗网络,从而生成最终的检测结果;步骤3.1、所述动态对抗网络的生成器由第一编码模块、静态转换模块、静态解码模块构成;所述第一编码模块由c1个卷积层构成,卷积核大小为均为ks1,步长均为s1,且在各卷积层之间采用LeakRelu层和批归一化层;所述静态转换模块由c2个残差模块构成,并设置所述替残差模块中的卷积为空洞卷积;所述静态解码模块由c3个转置卷积层构成,转置卷积核大小为均为ks3,步长均为s3,且在各转置卷积层之间采用LeakRelu层和批归一化层;将所述静态检测结果St及第t帧视频图像It的前后临近帧作为所述动态对抗网络的输入,输出的特征图经一层一通道卷积层和一层tanh层后得到第t帧图像的最终检测结果Dt;根据式(2)计算最终检测结果Dt与前景标注Gt之间均方误差并作为生成器的像素级监督损失:式(2)中,Dt(n)表示最终检测结果Dt中第n个像素值;步骤3.2、所述动态对抗网络的判别器由第二静态编码模块组成,所述第二静态编码模块包含d1个卷积层和d2个全连接层;将第t帧视频图像It的前景标注Gt与第t帧视频图像It的前后临近帧组合成正样本,并输入到所述判别器中,得到前景标注Gt为真的概率值将第t视频图像It的静态检测结果Dt与第t帧视频图像It的前后临近帧组合后组成负样本,并输入到所述判别器,得到静态检测结果Dt为真的概率值根据式(3)计算动态生成网络的最小二乘对抗损失式(3)中,E表示期望;根据式(4)计算动态判别网络的最小二乘对抗损失根据式(5)计算动态对抗网络的最终对抗损失Lt,通过自适应矩估计优化方法以学习率lrd对Lt进行优化求解,使得值、值和值在相互对抗中均收敛到最优,当值和值达到最优时,所述动态对抗网络的生成器达到最优,并生成最终的前景掩码图,当值达到最优时,所述动态对抗网络的判别器达到最优;式(5)中,λ表示权重系数,用于平衡均方误差损失项和对抗损失项;步骤4、利用训练好的静态检测网络和动态对抗网络模型对具有前景标注的视频数据集进行检测,从而得到相应的检测结果。与已有技术相比,本专利技术具有如下优点:1.本专利技术利用全卷积神经网络和条件对抗网络进行视频前景检测,在不需要任何背景图像重构和后端处理的情况下,以高达到23fps的帧率完成端到端检测,并且较现有的视频前景检测方法,具有更好的鲁棒性。2.本专利技术将整个视频前景检测过程视为简单像素级二分类过程,不需要任何复杂的背景建模过程,也不需要手动设计固定的卷积核提取低级视觉特征,通过训练使网络具有特征提取能力。3.本专利技术中的静态检测网络是基于跳连结构组成的编解码网络,以监督训练的方式学习高层和底层的空间特征融合提取,达到了空间特征充分的利用;结合了高低层的空间特征,静态检测网络能生成较为精确的静态检测结果;4.本专利技术本文档来自技高网
...

【技术保护点】
1.一种基于全卷积网络和条件对抗网络的视频前景检测方法,其特征包括如下步骤:/n步骤1、视频数据收集和预处理:/n获取真实场景视频数据并进行归一化预处理,得到预处理后的视频序列,记为I={I

【技术特征摘要】
1.一种基于全卷积网络和条件对抗网络的视频前景检测方法,其特征包括如下步骤:
步骤1、视频数据收集和预处理:
获取真实场景视频数据并进行归一化预处理,得到预处理后的视频序列,记为I={I1,I2,…,It,…,IT},其中,It表示第t帧视频图像,并记第t帧视频图像It所对应的前景标注为Gt,t=1,2,…,T;
步骤2、建立基于全卷积网络的静态检测网络,将所述第t帧视频图像It所对应的前景标注Gt作为检测目标,以交叉商损失函数监督训练所述静态检测网络,从而生成静态检测结果;
所述静态检测网络由编码器和解码器构成,所述编码器使用w个卷积层,所述解码器使用w个对应反卷积层;并将编码器每层的输出特征图映射到对称解码器的输入中,然后通过通道维度连接起来,从而构建跳跃连接结构;
以第t帧视频图像It为静态检测网络的输入,经一层一通道卷积层和一层sigmoid层后得到第t帧视频图像的静态检测结果St;
根据式(1)计算第t帧视频图像的静态检测结果St与对应前景标注Gt之间交叉商损失函数并作为训练所述静态检测网络的像素级监督损失,使用自适应矩估计优化方法以学习率lrs来更新所述静态检测网络的权值,并在损失值趋于稳定时完成对所述静态检测网络的训练;



式(1)中,at为第t帧视频图像It中前景像素占总像素的比重;Gt(n)表示前景标注Gt中第n个像素值;St(n)表示静态预测结果St中第n个像素值;
步骤3、建立基于条件生成对抗网络的动态对抗网络,结合静态检测结果St及第t帧视频图像It的临近帧作为输入用于训练所述动态对抗网络,从而生成最终的检测结果;
步骤3.1、所述动态对抗网络的生成器由第一编码模块、静态转换模块、静态解码模块构成;
所述第一编码模块由c1个卷积层构成,卷积核大小为均为ks1,步长均为s1,且在各卷积层之间采用LeakRelu层和批归一化层;
所述...

【专利技术属性】
技术研发人员:杨依忠张涛程志航解光军程心张章
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1