本发明专利技术实施例提供一种基于SSD网络的视频目标检测方法及装置,该方法包括:将待检测视频的当前帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积进行特征提取;通过光流网络获取每一邻近帧和当前帧的光流场;根据每一邻近帧特征提取后的低层特征和当前帧的光流场,获得当前帧的多个光流补偿特征;根据当前帧的低层特征和多个光流补偿特征,进行特征融合,得到当前帧的时间融合特征;将当前帧的时间融合特征输入高层卷积进行特征提取,输出当前帧的检测结果。该方法充分考虑到与当前帧有时间关联的邻近帧以及之间的光流场,从而不受视频中目标、背景的不断变化造成的模糊、光照变化和目标变化等情况影响,能够显著提高视频的目标检测精度。
【技术实现步骤摘要】
基于SSD网络的视频目标检测方法及装置
本专利技术涉及图像识别领域,尤其涉及一种基于SSD网络的视频目标检测方法及装置。
技术介绍
目标检测是计算机视觉领域中一个基础性的研究课题,相关研究工作一直是计算机视觉的研究热点。目标检测的任务是准确判断目标在图像中的类别和位置,而视频目标检测要求对视频中的每一帧图像的目标都能正确识别和定位,同时保证目标检测的一致性。在目标检测领域,静态图像目标检测已取得了快速的进展。例如目前的单发多目标检测器(SingleShotMultiBoxDetector,SSD),该方法将候选区域提取和检测融合到一个网络模型中,利用卷积神经网络对图像提取出多个不同尺度的特征,通过检测网络得到最终的检测结果,提高了检测效率。由于视频中目标、背景的不断变化,会造成模糊、光照变化、目标变化等情况,因此利用SSD网络对视频进行目标检测无法得到较高的准确率。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种基于SSD网络的视频目标检测方法及装置。第一方面,本专利技术实施例提供一种基于SSD网络的视频目标检测方法,包括:将待检测视频的当前数据帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积,进行特征提取;通过光流网络获取每一邻近帧和当前帧的光流场;根据每一邻近帧特征提取后的低层特征和当前帧的光流场,获得当前帧的多个光流补偿特征;根据当前帧的低层特征和所述多个光流补偿特征,进行特征融合,得到当前帧的时间融合特征;将所述当前帧的时间融合特征,输入高层卷积进行特征提取,输出当前帧的检测结果;其中,所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。进一步地,所述根据当前帧的低层特征,和所述多个光流补偿特征,进行特征融合,包括:计算当前帧的低层特征,分别和所述多个光流补偿特征的余弦相似度,并进行归一化;根据归一化的余弦相似度,对当前帧的低层特征和所述多个光流补偿特征进行加权,得到当前帧的时间融合特征。进一步地,所述将所述当前帧的时间融合特征,输入高层卷积进行特征提取之后,所述输出当前帧的检测结果之前,还包括:利用高层卷积得到的特征依次进行上采样,得到与每个不同尺度的低层特征相同维度的待融合特征;将每个不同尺度的低层特征与待融合特征进行特征融合后进行检测。进一步地,将待检测视频的当前数据帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积之前,还包括:获取多个已知目标类别和坐标位置的视频数据的和图片数据,得到第一训练集样本;利用所述第一训练集样本对所述SSD网络模型的多个卷积层进行训练,直至收敛或到达最大迭代次数;获取多个已知目标类别和坐标位置的视频数据,得到第二训练集样本;对于每一第二训练样本,将当前帧和邻近帧,对加入光流网络的SSD网络模型进行训练,直至收敛或到达最大迭代次数。进一步地,所述根据每一邻近帧特征提取后的低层特征和当前帧的光流场,获得当前帧的多个光流补偿特征,包括:根据每一邻近帧特征提取后的低层特征和当前帧的光流场,通过双线性插值函数,获得当前帧的多个光流补偿特征。进一步地,所述SSD网络模型为加入ResNet101网络构建得到。进一步地,所述已知目标类别和坐标位置的视频数据和图片数据分别为,ImageNetVID数据集和ImageNetDET数据集中的数据。第二方面,本专利技术实施例提供一种基于SSD网络的视频目标检测装置,包括:输入模块,用于将待检测视频的当前数据帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积,进行特征提取;光流获取模块,用于通过光流网络获取每一邻近帧和当前帧的光流场;特征补偿模块,用于根据每一邻近帧特征提取后的低层特征和当前帧的光流场,获得当前帧的多个光流补偿特征;特征融合模块,用于根据当前帧的低层特征和所述多个光流补偿特征,进行特征融合,得到当前帧的时间融合特征;处理模块,用于将所述当前帧的时间融合特征,输入高层卷积进行特征提取,输出当前帧的检测结果;其中,所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本专利技术第一方面基于SSD网络的视频目标检测方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本专利技术第一方面基于SSD网络的视频目标检测方法的步骤。本专利技术实施例提供的基于SSD网络的视频目标检测方法及装置,根据每一邻近帧特征提取后的低层特征和当前帧的光流场,获得当前帧的多个光流补偿特征,充分考虑到与当前帧有时间关联的邻近帧,以及当前帧与邻近帧的光流场。根据当前帧的低层特征和所述多个光流补偿特征,进行特征融合,不会受视频中目标、背景的不断变化造成的模糊、光照变化和目标变化等情况影响,从而能够显著提高视频的目标检测精度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的基于SSD网络的视频目标检测方法流程图;图2为本专利技术实施例提供的SSD网络模型示意图;图3为本专利技术实施例提供的基于光流估计的SSD网络模型结构图;图4为本专利技术实施例提供的基于ResNet101和空间特征融合的SSD网络模型结构图;图5为本专利技术另一实施例提供的基于SSD网络的视频目标检测方法流程图;图6为本专利技术实施例提供的基于SSD网络的视频目标检测装置结构图;图7为本专利技术实施例提供的一种电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的基于SSD网络的视频目标检测方法流程图,如图1所示,本专利技术实施例提供一种基于SSD网络的视频目标检测方法,包括:101、将待检测视频的当前数据帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积,进行特征提取。图2为本专利技术实施例提供的SSD网络模型示意图,本实施例与目前方法不同的是,本实施例中,输入的是当前帧和多个邻近帧,分别通过SSD网络模型进行特征提取。邻近帧的数量可根据具体需求设置,如前后相邻的总共20帧。高层卷积和低层卷积是相对而言的,输入的数据帧图片经多个卷积层提取特征到输出层,与输入图片相近的为低层卷积,与输出层相近的为高层卷积,提取的特征分别为低层特征和高层特征。也就是说,除了最本文档来自技高网...
【技术保护点】
1.一种基于SSD网络的视频目标检测方法,其特征在于,包括:/n将待检测视频的当前数据帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积,进行特征提取;/n通过光流网络获取每一邻近帧和当前帧的光流场;/n根据每一邻近帧特征提取后的低层特征和当前帧的光流场,获得当前帧的多个光流补偿特征;/n根据当前帧的低层特征和所述多个光流补偿特征,进行特征融合,得到当前帧的时间融合特征;/n将所述当前帧的时间融合特征,输入高层卷积进行特征提取,输出当前帧的检测结果;/n其中,所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。/n
【技术特征摘要】
1.一种基于SSD网络的视频目标检测方法,其特征在于,包括:
将待检测视频的当前数据帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积,进行特征提取;
通过光流网络获取每一邻近帧和当前帧的光流场;
根据每一邻近帧特征提取后的低层特征和当前帧的光流场,获得当前帧的多个光流补偿特征;
根据当前帧的低层特征和所述多个光流补偿特征,进行特征融合,得到当前帧的时间融合特征;
将所述当前帧的时间融合特征,输入高层卷积进行特征提取,输出当前帧的检测结果;
其中,所述SSD网络模型根据带有目标类别和坐标位置标签的视频样本进行训练后得到。
2.根据权利要求1所述的基于SSD网络的视频目标检测方法,其特征在于,所述根据当前帧的低层特征和所述多个光流补偿特征,进行特征融合,包括:
计算当前帧的低层特征,分别和所述多个光流补偿特征的余弦相似度,并进行归一化;
根据归一化的余弦相似度,对当前帧的低层特征和所述多个光流补偿特征进行加权,得到当前帧的时间融合特征。
3.根据权利要求1所述的基于SSD网络的视频目标检测方法,其特征在于,所述将所述当前帧的时间融合特征,输入高层卷积进行特征提取之后,所述输出当前帧的检测结果之前,还包括:
利用高层卷积得到的特征依次进行上采样,得到与每个不同尺度的低层特征相同维度的待融合特征;
将每个不同尺度的低层特征与待融合特征进行特征融合后进行检测。
4.根据权利要求1所述的基于SSD网络的视频目标检测方法,其特征在于,将待检测视频的当前数据帧和邻近帧,分别输入至预设的SSD网络模型的低层卷积之前,还包括:
获取多个已知目标类别和坐标位置的视频数据和图片数据,得到第一训练集样本;
利用所述第一训练集样本对所述SSD网络模型的多个卷积层进行训练,直至收敛或到达最大迭代次数;
获取多个已知目标类别和坐标位置的视频数据,得到第二训练集样本;
对于每一第二训练样本,将当前帧和邻近帧,对加入光流网络的SSD网...
【专利技术属性】
技术研发人员:尉婉青,禹晶,柏鳗晏,肖创柏,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。