The invention discloses a video target detection method based on depth learning, which is applied in the field of video target detection. Methods The convolutional neural network was used to extract image features, and a temporal-spatial feature extraction network was proposed to extract the spatial and temporal context information of video. The image features were fused with temporal and spatial context information, and the feature maps of backbone network output were updated. Finally, the feature maps were input into the detection network to obtain the final detection results. Accuracy and real-time of target detection are achieved. This method effectively improves the accuracy and real-time detection.
【技术实现步骤摘要】
一种基于深度学习的视频目标检测方法
本专利技术涉及目标检测领域,更具体地,涉及一种基于深度学习的视频目标检测方法。
技术介绍
近年来,深度学习在计算机视觉领域取得了前所未有的突破,通过多层神经网络的结构,整合图像的整体信息,从更高、更抽象的层次对图像特征进行表达。当前,基于卷积神经网络(CNN)的深度学习模型被广泛应用在目标检测当中,并被证明具有优于传统手工特征方法的效果。当前,目标检测方式主要分为两大类:一类是基于手工特征提取的目标检测方法,另一类是基于深度学习特征提取的目标检测方法。典型的手工特征包括了形状、轮廓信息等,也可以是具有统计特性的Haar特征、Hog特征等。这些特征能够在一定程度上描述图像,结合传统的有监督机器学习分类器,在某些任务上能够满足检测需要。然而现有的技术存在以下缺陷:(1)基于人工设计的特征提取方法通常需要相关领域知识或大量统计数据,因而需要极大的研究成本;另外,手工特征的泛化能力较弱,一定程度上影响其准确性。(2)基于深度学习的特征提取方法计算量一般较为巨大,妨碍了实际场景中的应用。(3)当前目标检测研究更为注重静态图像的检测,在视频 ...
【技术保护点】
1.一种基于深度学习的视频目标检测方法,其特征在于:包括以下步骤:S1:归一化训练图像尺寸,以及初始化骨干网络、时间‑空间特征提取网络和检测网络的参数;S2:将训练图像数据输入到包含骨干网络、时间‑空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数;S3:将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果。
【技术特征摘要】
1.一种基于深度学习的视频目标检测方法,其特征在于:包括以下步骤:S1:归一化训练图像尺寸,以及初始化骨干网络、时间-空间特征提取网络和检测网络的参数;S2:将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数;S3:将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果。2.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S1中的训练图像统一归一化为同样像素大小的图像。3.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S2将训练图像数据输入到包含骨干网络、时间-空间特征提取网络以及检测网络的检测器中进行训练并更新检测器参数的具体步骤为:S21:选取同一视频相距n帧内的两帧图像作为训练样本,将两帧图像中的前一帧作为参考帧Ik,后一帧作为预测帧Ii;S22:将参考帧Ik作为输入,经过骨干网络Nfeat,提取图像特征,输出对应的参考帧特征图fk,其公式表示如下:fk=Nfeat(Ik)S23:将参考帧和预测帧同时输入时间-空间特征提取网络Ntime-space,得到帧间的光流信息Ti,k和空间显著度概率图Si,k,其公式表示如下:Ti,k,Si,k=Ntime-space(Ii,Ik);S24:利用光流信息和参考帧的特征图,通过双线性插值的方法生成预测帧的初始特征图fi′,再与空间显著度概率图做基于元素的相乘,作为预测帧最终的特征图fi,其公式表示如下:fi′=Bilinear(fk,Ti,k)其中Bilinear表示双线性插值处理;S25:将特征图fi,经过检测网络Ndet,输出最终的检测结果y:y=Ndet(fi);S26:结合检测结果和真实的标注信息,计算损失函数,并通过随机梯度下降法分别更新骨干网络、时间-空间特征提取网络以及检测网络的参数。4.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于:步骤S3将待检测视频输入到检测器进行目标检测并输出最终的预测框以及分类结果的具体步骤为:S31:处理待检测视频,按固定间隔d选取关键帧,即每隔d帧选取1个关键帧,其余为非关键帧;S32:输入视频首帧I0,记作最初的关键帧,即Ik=I0,将其输入到骨干网络中得到f0,将f0作为关键帧的特征图,即fk=f0,将其输入到检测网络中得到检测结果y0;S33:依次处理视频中的每一帧,若当前帧Ii为关键帧,将其输入到骨干网络中得到fi′,通过时间-空间特征提取网络更新特征图得到fi,再将其输入到检测网络中得到检测结果yi,最...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。