基于稀疏前景先验的视频目标检测方法、存储介质及设备技术

技术编号:27536266 阅读:30 留言:0更新日期:2021-03-03 11:23
本发明专利技术公开了一种基于稀疏前景先验的视频目标检测方法、存储介质及设备,采用基于正交子空间学习的前景提取方法计算得到视频中每一帧对应的稀疏前景先验图;利用ResNet特征提取网络和特征金字塔结构得到视频帧及其稀疏前景图的语义增强特征图;将稀疏前景先验图的语义增强特征图与当前帧的语义增强特征图级联后,经卷积融合操作得到当前帧的前景先验融合特征;在前景先验融合特征图的每个像素上映射生成候选锚框;将前景先验融合特征和所有锚框输入到训练好的分类和回归子网络,得到目标物体的类别和位置坐标。本发明专利技术充分挖掘了视频数据的稀疏前景先验,提高了目标检测准确率。率。

【技术实现步骤摘要】
基于稀疏前景先验的视频目标检测方法、存储介质及设备


[0001]本专利技术属于计算机视觉
,具体涉及一种基于稀疏前景先验的视频目标检测方法、存储介质及设备。

技术介绍

[0002]计算机视觉是人工智能的一个重要领域,它通过训练计算机来学习和理解现实视觉。借助图片和视频以及深度学习模型,可以做到准确地分类和识别所关注的目标,进而做出进一步的判断处理。计算机视觉一般分为图像识别、目标检测、实例分割等主要任务。其中,分类任务一般给出的是整张图片的内容描述,而检测任务则更关注特定的感兴趣物体目标,要求同时获得感兴趣目标的识别结果和定位结果。相比于分类任务,检测是对图片前景和背景的理解,同时还需要从背景中分离出感兴趣的目标,并确定感兴趣目标的识别和位置信息。
[0003]目标检测是计算机视觉研究领域的一个热门方向,广泛应用于机器人导航、视频监控、工业检测、人脸识别等诸多领域。图像目标检测任务在过去几年的时间取得了巨大的进展,检测性能得到明显提升。然而在视频监控、车辆辅助驾驶等领域,基于视频的目标检测有着更为广泛的需求。但是,要将图像检测技术直接用到视频检测任务会面临新的挑战。第一,把图像目标检测网络直接应用到视频中的每一帧进行检测会带来巨大的计算成本;第二,传统图像目标检测方法不能有效利用视频数据时序连续性和稀疏前景的先验,较难挖掘视频数据中的时序特性。
[0004]视频是由图像组成的,视频目标检测与图像目标检测存在着紧密的联系。为了提高视频检测准确率,通常在图像目标检测对每一帧进行检测之后,利用视频特有的时序特性对检测结果做进一步处理。为了利用视频数据在时序上的连续性和冗余性,最近的一些方法采用光流、注意力机制及序列模型等来挖掘视频的时序特性。

技术实现思路

[0005]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于稀疏前景先验的视频目标检测方法、存储介质及设备,提高视频目标检测的检测性能。
[0006]本专利技术采用以下技术方案:
[0007]基于稀疏前景先验的视频目标检测方法,包括以下步骤:
[0008]S1、将视频V分成m个视频片段C
i
,i=1,2,

,m,对每个视频片段C
i
采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I
(t)
的稀疏前景图E
(t)

[0009]S2、分别将视频帧I
(t)
与稀疏前景图E
(t)
输入ResNet特征提取网络,ResNet特征提取网络的每一层分别输出对应层的特征图F
(t)
和稀疏前景先验特征图计算视频帧I
(t)
的特征图F
(t)
及其稀疏前景图E
(t)
的稀疏前景先验特征图
[0010]S3、通过特征金字塔结构,将视频帧I
(t)
的每一层特征F
(t)
和对应稀疏前景先验特
征分别与更高层上采样得到的特征组合,计算视频帧I
(t)
的语义增强特征和前景语义增强特征
[0011]S4、将视频帧I
(t)
的语义增强特征和对应前景语义增强特征进行融合,得到视频帧I
(t)
的前景先验融合特征图
[0012]S5、在视频帧I
(t)
的前景先验融合特征图中生成锚框;
[0013]S6、将视频帧I
(t)
的前景先验融合特征图及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I
(t)
中所有目标的分类和定位结果,完成目标检测。
[0014]具体的,步骤S1中,将视频片段C
i
内的每一帧图像I
(t)
灰度化后转化为列向量,将这些列向量组合成二维矩阵X,根据目标函数计算得到视频片段C
i
中所有帧的稀疏前景先验E,再将E按列拆分,还原得到每一帧I
(t)
的对应稀疏前景图E
(t)
,目标函数计算如下:
[0015][0016]其中,D为正交子空间,θ为正交子空间系数,α、β为调节参数,||
·
||
row,1
表示矩阵行的1范数,I
k
为阶数为k的单位矩阵。
[0017]进一步的,采用交替方向法求解目标函数,使用块坐标下降法求解D和θ,定义残差项并利用残差项求解更新D和θ;利用求解得到的D和θ更新收缩函数
·
为逐元素相乘,sign()为符号函数,迭代更新直至达到收敛条件,达到最大迭代次数后,得到视频片段C
i
中所有帧的稀疏前景先验E。
[0018]具体的,步骤S3中,在视频帧I
(t)
和稀疏前景图E
(t)
经过ResNet特征提取网络得到特征图F
(t)
和稀疏前景先验特征图的过程中,从ResNet特征提取网络的中间层抽出5个不同尺度的特征,尺度大小分别为最低层特征的倍,将5个不同尺度的特征构成特征金字塔,特征金字塔的底部是高分辨率的特征图,顶部特征图是低分辨率特征图;把特征金字塔高层的的强语义特征进行最近邻上采样,再与低一层的特征相加,经过3
×
3卷积核之后,输出具有语义信息的特征和前景先验特征
[0019]具体的,步骤S4中,将视频帧I
(t)
的语义增强特征和对应前景语义增强特征级联,再通过1
×
1的卷积操作,得到前景先验融合特征图
[0020]具体的,步骤S5中,在前景先验融合特征图中每一层的每个像素上设置一个尺寸为16
×
16的基锚框,在保持面积不变的前提下,使长宽比分别为0.5,1,2,再对三个不同长宽比的锚框分别放大8,16,32个尺度,对于前景先验融合特征图中每一层特征图上的每个像素一共生成9个锚框。
[0021]具体的,步骤S6中,训练分类和回归子网络具体为:
[0022]S6011、随机初始化分类和回归网络的权重参数;
[0023]S6012、对每一个候选区域,用初始化后的分类网络计算候选区域属于各个类别的概率,再用初始化后的回归网络计算候选区域的位置坐标;
[0024]S6013、构造目标检测损失函数L;
[0025]S6014、利用目标检测损失函数L,通过反向传播迭代更新学习分类和回归网络参数,直到网络收敛,得到训练后的分类和回归子网络。
[0026]进一步的,步骤S6013中,损失函数L:
[0027][0028]其中,z是第i个候选区域的真实标签,是第i个候选区域属于z类目标的概率,γ是专注参数,是用于目标分类的focal loss损失;a
i
是第i个候选区域的位置坐标,是与第i个候选区域对应的真实目标框的坐标向量,是目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于稀疏前景先验的视频目标检测方法,其特征在于,包括以下步骤:S1、将视频V分成m个视频片段C
i
,i=1,2,

,m,对每个视频片段C
i
采用基于正交子空间学习的前景提取算法得到视频片段内第t帧视频帧I
(t)
的稀疏前景图E
(t)
;S2、分别将视频帧I
(t)
与稀疏前景图E
(t)
输入ResNet特征提取网络,ResNet特征提取网络的每一层分别输出对应层的特征图F
(t)
和稀疏前景先验特征图计算视频帧I
(t)
的特征图F
(t)
及其稀疏前景图E
(t)
的稀疏前景先验特征图S3、通过特征金字塔结构,将视频帧I
(t)
的每一层特征F
(t)
和对应稀疏前景先验特征分别与更高层上采样得到的特征组合,计算视频帧I
(t)
的语义增强特征和前景语义增强特征S4、将视频帧I
(t)
的语义增强特征和对应前景语义增强特征进行融合,得到视频帧I
(t)
的前景先验融合特征图S5、在视频帧I
(t)
的前景先验融合特征图中生成锚框;S6、将视频帧I
(t)
的前景先验融合特征图及所有锚框输入到训练好的分类和回归网络,分别得到视频帧I
(t)
中所有目标的分类和定位结果,完成目标检测。2.根据权利要求1所述的基于稀疏前景先验的视频目标检测方法,其特征在于,步骤S1中,将视频片段C
i
内的每一帧图像I
(t)
灰度化后转化为列向量,将这些列向量组合成二维矩阵X,根据目标函数计算得到视频片段C
i
中所有帧的稀疏前景先验E,再将E按列拆分,还原得到每一帧I
(t)
的对应稀疏前景图E
(t)
,目标函数计算如下:其中,D为正交子空间,θ为正交子空间系数,α、β为调节参数,||
·
||
row,1
表示矩阵行的1范数,I
k
为阶数为k的单位矩阵。3.根据权利要求2所述的基于稀疏前景先验的视频目标检测方法,其特征在于,采用交替方向法求解目标函数,使用块坐标下降法求解D和θ,定义残差项并利用残差项求解更新D和θ;利用求解得到的D和θ更新收缩函数
·
为逐元素相乘,sign()为符号函数,迭代更新直至达到收敛条件,达到最大迭代次数后,得到视频片段C
i
中所有帧的稀疏前景...

【专利技术属性】
技术研发人员:古晶巨小杰马文萍孙新凯刘芳杨淑媛焦李成冯婕
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1