当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于深度学习的视频目标检测方法与装置制造方法及图纸

技术编号:26066792 阅读:17 留言:0更新日期:2020-10-28 16:39
本发明专利技术公开了一种基于深度学习的视频目标检测方法与装置。本发明专利技术在提取帧图像特征后,利用改进的SeqtoSeq模型提取视频中的时序信息,并利用该信息提高帧图像的特征质量,在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后,对视频中的目标关系进行建模,从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示。本发明专利技术不仅能够提高视频目标检测的检测精度,同时还具有优良的鲁棒性。

【技术实现步骤摘要】
一种基于深度学习的视频目标检测方法与装置
本专利技术涉及一种基于深度学习的视频目标检测方法与装置,利用视频中的时序信息对视频帧特征进行优化,通过目标关系对候选框特征进行重新编码,能够有效提高视频目标检测算法的检测性能和鲁棒性,属于计算机视觉处理

技术介绍
随着计算机技术的进步和互联网技术的发展,计算机已经为人们处理生活中大量的图片和视频音像信息。计算机视觉已经在无人驾驶、人脸识别、医学图像处理等应用场景得到了广泛的应用。而在这些应用场景中,如智慧交通系统,无人驾驶等需要利用目标检测技术发现视频监控中出现的目标。因此,基于视频的目标检测的研究有着更大的应用需求。传统的视频目标检测算法主要分为两种:基于光流的视频目标检测算法和基于tubelet(候选框序列)的视频目标检测算法。基于光流的视频目标检测算法有DFF、FGFA、HPVD等。基于光流的视频目标检测算法利用视频帧之间的光流图,将前后若干帧图像的特征用来提升当前帧图像的特征质量。虽然这类算法能在一定程度上缓解视频帧图像恶化等问题,但是如果想要得到较高的检测精度,需要对前后大量的帧图像进行处理,将增加神经网络中的参数量。基于tubele的视频目标检测算法包括Seq-NMS、TCN、T-CNN等,基于光流的视频目标检测算法首先利用图像目标检测器检测每帧图像,然后通过不同的方法连接相邻帧图像中同一目标的候选框并生成tubelet,最后对tubelet中的候选框重新评分,以此优化每帧的检测结果。虽然这类算法在一定程度上减少了神经网络的计算量,但是难以克服长时期遮挡等帧图像恶化问题。深度学习是计算机视觉领域一个新的重要研究方向。其基本原理是通过采用多个变换阶段对样本数据的特征进行描述,进而得到数据的特征表示。以图像为例,深度学习通过组合低层次的样本图像特征,进而形成更加抽象的图像高层表示或特征属性。目前深度学习已经在模式识别、语音识别、图像分类等应用中取得了令人瞩目的成就。应用于视频目标检测领域中,深度学习中的循环神经网络模型能够有效处理序列特征,可以充分捕捉到潜藏在视频帧序列中的时序信息,对视频目标检测的检测性能有着极大的提升。因此,将深度学习应用到视频目标检测领域以解决传统方法难以克服的目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低的问题,是本专利技术的主要研究课题。
技术实现思路
专利技术目的:针对现有技术中存在的问题和不足,本专利技术提供一种基于深度学习的视频目标检测方法与装置,充分利用视频中的时序信息以及视频中目标间的语义关系,有效提高视频目标检测算法的鲁棒性和检测精度。技术方案:为实现上述专利技术目的,本专利技术所提出的一种基于深度学习的视频目标检测方法,该方法首先利用视频中的时序信息对视频帧特征进行优化,有效改善因帧图像恶化而导致的检测精度下降问题,提高了视频目标检测算法的鲁棒性,然后对视频中的目标关系进行建模,并通过目标关系对候选框特征进行重新编码,以此丰富候选框的特征表示,提高模型对视频中目标的检测能力。该方法主要包括如下步骤:(1)利用深度卷积神经网络提取视频帧图像的CNN特征;(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中丰富的时序信息以提高视频帧的特征质量;(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的精确位置。作为优选,所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器,以ConvLSTM作为解码器;BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合,而是先对特征图进行空间对齐;对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图,然后利用双线性插值函数,将隐藏层输出沿着光流方向传播到帧图像特征。作为优选,所述步骤(2)中时空注意力机制的实现过程包括:首先将编码器的各个单元与解码器中的单元进行匹配,并计算编码器的各个单元对解码器中单元的影响力;然后对各个影响力利用softmax函数进行运算,得到注意力权重分布;最后对注意力权重分布进行加权求和得到注意力特征;其中在对编码器单元和解码器单元进行匹配时,同时匹配两个单元的视觉特征和时间特征,视觉特征影响力visioni,j和时间特征影响力timei,j分别通过如下公式计算得到:visioni,j=Vi,j·ReLU(Wh·[hi,sj-1])其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh为卷积核;·表示卷积操作;ReLU表示ReLU函数;visionij为标量;T为视频帧数量;εi,j为时间特征参数。作为优选,所述步骤(3)中采用FasterR-CNN模型中的RPN网络以及ROIPooling层获取候选框,将优化后的帧特征输入到RPN网络用于产生区域建议集合,再将区域建议集合输入到ROIPooling层中获得候选框特征集合。作为优选,所述步骤(3)中目标j对目标i的视觉特征影响力位置特征影响力和时序特征影响力通过如下公式计算得到:其中,分别为目标i和目标j的视觉特征;分别为目标i和目标j的位置特征;分别为目标i和目标j的时间特征;表示将和变换为4维向量后编码为一个高维表示;WK,WQ为视觉特征的参数;dk为视觉特征的维度;WG为位置特征的参数;WT为时间特征的参数;dot表示矩阵点乘;*表示矩阵叉乘。作为优选,所述步骤(3)中目标j对目标i的关系特征为:其中,Wv为关系特征参数矩阵;ωi,j为归一化得到注意力权重分布,根据如下公式计算:其中,N表示目标个数。作为优选,所述步骤(3)中利用目标关系对候选框的特征进行重新编码的方法为:根据如下公式将所有其他目标对于目标i的关系特征进行拼接,并与目标i的视觉特征进行特征融合得到特征完成对目标i的特征的重新编码:基于相同的专利技术构思,本专利技术提供的一种基于深度学习的视频目标检测装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。基于相同的专利技术构思,本专利技术还提供一种存储装置,存储有可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的视频目标检测方法。有益效果:与现有技术相比,本专利技术具有如下优点本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的视频目标检测方法,其特征在于,包括如下步骤:/n(1)利用深度卷积神经网络提取视频帧图像的CNN特征;/n(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中的时序信息以提高视频帧的特征质量;/n(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;/n(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。/n

【技术特征摘要】
1.一种基于深度学习的视频目标检测方法,其特征在于,包括如下步骤:
(1)利用深度卷积神经网络提取视频帧图像的CNN特征;
(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化;所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程,以SeqtoSeq作为基础模型并增加了时空注意力机制,提取视频中的时序信息以提高视频帧的特征质量;
(3)利用视频目标关系提取模块对候选框特征进行重新编码;所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框,对目标关系进行建模,计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布,从而挖掘目标之间潜藏的语义关系,并利用目标关系对候选框的特征进行重新编码,丰富候选框的特征表示;
(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。


2.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器,以ConvLSTM作为解码器;BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合,而是先对特征图进行空间对齐;对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图,然后利用双线性插值函数,将隐藏层输出沿着光流方向传播到帧图像特征。


3.根据权利要求1所述的一种基于深度学习的视频目标检测方法,其特征在于,所述步骤(2)中时空注意力机制的实现过程包括:首先将编码器的各个单元与解码器中的单元进行匹配,并计算编码器的各个单元对解码器中单元的影响力;然后对各个影响力利用softmax函数进行运算,得到注意力权重分布;最后对注意力权重分布进行加权求和得到注意力特征;其中在对编码器单元和解码器单元进行匹配时,同时匹配两个单元的视觉特征和时间特征,视觉特征影响力visioni,j和时间特征影响力timei,j分别通过如下公式计算得到:
visioni,j=Vi,j·ReLU(Wh·[hi,sj-1])



其中,hi表示编码器中第i个单元的隐藏层输出;sj-1表示解码器中第j-1个单元的隐藏层输出;Vi,j和Wh为卷积核;·表示卷积操作;ReLU表示Re...

【专利技术属性】
技术研发人员:杨鹏闵克祥何大治纪雯
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1