一种基于时间域信息传递的视频目标检测方法技术

技术编号:34185829 阅读:30 留言:0更新日期:2022-07-17 14:12
本发明专利技术属于计算机视觉领域,提供了一种基于时间域信息传递的视频目标检测方法,包括以下步骤:1)获取并输入视频数据;2)对视频帧进行分成每m一组;3)通过信息传递模块,首先对每一组连续帧进行合并,获取特征并通过门控循环单元实现上下文信息的传递;4)利用YOLOV5对数据进行后续检测,使用Focal Loss交叉熵损失与DIoU Loss函数训练此模型。与现有的技术相比,本发明专利技术基于YOLOV5模型对其进行了改进使其更注重连续帧中相邻帧的信息,可以有效提升目标检测的质量。检测的质量。检测的质量。

【技术实现步骤摘要】
一种基于时间域信息传递的视频目标检测方法


[0001]本专利技术涉及图像处理和计算机视觉领域,具体来说,涉及了基于高效多尺度上下文探索网络的显著性目标检测算法。

技术介绍

[0002]本部分的陈述仅仅是涉及到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]目标检测一直是计算机视觉领域经久不衰的研究方向。目标检测也是一个主观的过程,对于人类来说能够通过观察很轻易地定位到目标。但对于只能接收到RGB像素矩阵的计算机来说却难如登天。传统的目标检测算法在预测精度和速度上都很不理想,但自从深度学习算法在计算机视觉领域大放异彩,目标检测领域逐渐开始利用深度学习来做研究。
[0004]到目前为止,基于RGB图像的目标检测技术已经趋近成熟,且无论精度还是速度都达到了很高的水准。但基于视频的目标检测仍存在很大的发展空间。短视频,直播视频中大部分承载的是人物、场景、动作和语音内容,如何利用特征对其内容进行表达是解决此类问题的关键。一种最直接的方法就是基于单帧的识别方法,即将视频帧进行截断,然后基于单帧图像进行深度学习。然而一张图像相对于整个视频来说是很小的一部分,特别当这帧图像并不具备很好的区分度,或是一些和视频主题无关的图像时,分类器则无法进行很好的识别。另一种采用最多的方法是把视频帧分成关键帧和非关键帧两部分,其中关键帧的选取有两种方式,一是间隔固定的帧数选取,二是自适应的方式选取。视频中目标的检测相对于图像中,最大的特点就是增加了上下文信息,视频的每一帧图像都具有上下文的连接对应关系和相似性。因此,如何学习视频时间域上的表达是提高视频识别的主要因素。当然这不仅需要丰富的时间域信息,更依赖于普通的基于图像的目标检测技术。

技术实现思路

[0005]为了解决上述问题,本专利技术提出了一种基于时间域信息传递的视频目标检测方法及系统,设计信息传递模块,对视频帧进行分组并进行合并,通过卷积神经网络对合并后的帧进行特征的提取,并通过Gate Recurrent Unit(GRU)门控循环单元进行上下文信息的传递,从而实现视频中时间域信息的流动。
[0006]本专利技术的技术方案是提供了一种基于时间域信息传递的视频目标检测方法,该方法包括以下步骤:
[0007]1.获取并输入视频数据;
[0008]1.1)收集目标检测领域常用的数据集,KITTI数据集、Waymo数据集、NuScenes数据集、BDD 100K数据集、H3D数据集。
[0009]1.2)将KITTI数据集作为检测基准。
[0010]2.对视频中的帧数据进行剪切分组,分为相邻的m帧;
[0011]2.1)将多帧视频数据按照每相邻m帧分为一组,对于每组数据进行合并为一帧,在
对其进行Focus切片操作。再将切片后的图像进行卷积核大小为3
×
3的卷积操作。
[0012]2.2)步骤3.1中生成的特征h输入到GRU单元进行相邻帧之间的信息传递,其中包括一个重置门控r和一个更新门控z。
[0013][0014][0015]其中σ是sigmoid函数,x
t
是当前节点的输入,h
t
‑1是上一个传输下来的状态,W
r
和W
z
分别是重置门和更新门的权重。
[0016]得到门控信号之后,首先使用重置门控来得到重置之后的数据h
t
‑1′
,再将h
t
‑1′
与输入x
t
进行拼接,在通过一个Tanh激活函数来将数据放缩到

1~1的范围内,最终得到h


[0017][0018]h
t
‑1′
=h
t
‑1⊙
r,
ꢀꢀꢀ
(4)
[0019]其中W为权重,

为同或运算。
[0020]3.通过信息传递模块,首先对每一组连续帧进行合并,获取特征并通过门控循环单元实现上下文信息的传递;
[0021]3.1)将经过信息传递后的特征y
t
依次经过CSP1_1操作、CSL操作和CSP1_2操作得到所输入图像的第一特征,如下式所示。
[0022]Y=CSP(CLB(y
t
))where CLB=Conv+BN+ReLU,(5)
[0023]其中CSP表示特征融合。
[0024]3.2)将得到的第一特征再经过式(5)得到输入特征的第二特征。
[0025]3.3)将得到的第二特征依次经过CBL操作、SSP操作、CSP2_1操作得到输入特征的第三特征。
[0026]3.4)将得到的第三特征经过上采样操作并与第二特征进行Concat拼接操作再一次经过CSP2_1操作、CBL操作得到输入特征的第四特征。
[0027]3.5)将得到的第四特征进行上采样操作并与第一特征进行Concat拼接操作再经过CSP2_1操作得到输入特征的第五特征,对第五特征进行Conv卷积操作得到第六特征图,如下式所示。
[0028]Y

=F(Concat,CSP,Conv),(6)
[0029]其中F函数表示特征提取,Concate表示拼接。
[0030]3.6)将得到的第五特征输入式(6)得到第八特征图。
[0031]3.7)将得到的第七特征通过式(6)得到第九特征完成目标检测与目标选框。
[0032]4.利用YOLOV5对数据进行后续检测;
[0033]4.1)输出端对获得的第九特征进行目标Bounding Box的损失函数计算,采用DIoU的方式进行极大值抑制。
[0034]4.2)对于分类产生的损失采用Focal Loss交叉熵损失函数。
[0035]FL(p
t
)=

(1

p
t
)
γ
log(p
t
),(7)
[0036]其中1

p
t
为可变平衡因子,γ为调节因子且大于零。
[0037]4.3)对于位置回归产生的损失采用DIoU Loss损失函数。
[0038][0039]其中ρ表示预测框和真实框中心点的距离,p和g是两个框的中心点,c表示两个框的最小包围框的对角线长度。
[0040]基于上述,信息传递模块由三部分组成,Focus层提高每个点的感受野,并减少原始信息的丢失。卷积层(Conv)对前面的信息进行特征的提取。GRU层通过重置门(reset gate)与更新门(update gate)更新数据,实现相邻帧之间的信息传递,以达到提高检测精度与速度的目的。
[0041]本专利技术的优势:本专利技术充分利用了GRU实现长期记忆和反向传播的梯度问题。先通过上一个传输下来的状态h
t
‑本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时间域信息传递的视频目标检测方法,其特征在于,该方法包括以下步骤:1)输入视频数据;2)对视频中的帧数据进行剪切分组,分为相邻的m帧;3)通过信息传递机制从相邻帧中获取信息增强对当前帧的检测;4)利用YOLOV5模型对处理后的帧数据进一步检测,得到检测结果。2.根据权利要求1所述的一种基于时间域信息传递的视频目标检测方法,其特征在于:所述步骤1)具体方法是:2.1)收集目标检测领域常用的数据集,KITTI数据集、Waymo数据集、NuScenes数据集、BDD 100K数据集、H3D数据集。2.2)将KITTI数据集作为检测基准。3.根据权利要求1所述的一种基于时间域信息传递的视频目标检测方法,其特征在于:所述步骤2)具体方法是:3.1)将多帧视频数据按照每相邻m帧分为一组,对于每组数据进行合并为一帧,在对其进行Focus切片操作。再将切片后的图像进行卷积核大小为3
×
3的卷积操作。3.2)步骤3.1中生成的特征h输入到GRU单元进行相邻帧之间的信息传递,其中包括一个重置门控r和一个更新门控z。个重置门控r和一个更新门控z。其中σ是sigmoid函数,x
t
是当前节点的输入,h
t
‑1是上一个传输下来的状态,W
r
和W
z
分别是重置门和更新门的权重。得到门控信号之后,首先使用重置门控来得到重置之后的数据h
t
‑1′
,再将h
t
‑1′
与输入x
t
进行拼接,在通过一个tanh激活函数来将数据放缩到

1~1的范围内,最终得到h

。h
t
‑1′
=h
t
‑1⊙
r,
ꢀꢀꢀꢀ
(4)其中W为权重,

为同或运算。4.根据权利要求1所述的一种基于时间域信息传递的视频目标检测方法,其特征在于:所述步骤3)具体方法是:4.1)将经过信息传递后的...

【专利技术属性】
技术研发人员:夏晨星李续兵高修菊孙延光赵文俊
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1