一种基于深度学习的视频目标检测方法与装置制造方法及图纸

技术编号：26066792 阅读：17 留言：0更新日期：2020-10-28 16:39

本发明专利技术公开了一种基于深度学习的视频目标检测方法与装置。本发明专利技术在提取帧图像特征后，利用改进的SeqtoSeq模型提取视频中的时序信息，并利用该信息提高帧图像的特征质量，在一定程度上解决目标运动模糊、视频散焦、目标姿态奇异以及遮挡等帧图像恶化现象导致的检测精度降低问题。然后，对视频中的目标关系进行建模，从目标视觉特征、位置特征和时序特征三方面挖掘视频中目标之间潜在语义关系，并通过目标关系对候选框特征进行重新编码，以此丰富候选框的特征表示。本发明专利技术不仅能够提高视频目标检测的检测精度，同时还具有优良的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的视频目标检测方法与装置
本专利技术涉及一种基于深度学习的视频目标检测方法与装置，利用视频中的时序信息对视频帧特征进行优化，通过目标关系对候选框特征进行重新编码，能够有效提高视频目标检测算法的检测性能和鲁棒性，属于计算机视觉处理

技术介绍
随着计算机技术的进步和互联网技术的发展，计算机已经为人们处理生活中大量的图片和视频音像信息。计算机视觉已经在无人驾驶、人脸识别、医学图像处理等应用场景得到了广泛的应用。而在这些应用场景中，如智慧交通系统，无人驾驶等需要利用目标检测技术发现视频监控中出现的目标。因此，基于视频的目标检测的研究有着更大的应用需求。传统的视频目标检测算法主要分为两种：基于光流的视频目标检测算法和基于tubelet(候选框序列)的视频目标检测算法。基于光流的视频目标检测算法有DFF、FGFA、HPVD等。基于光流的视频目标检测算法利用视频帧之间的光流图，将前后若干帧图像的特征用来提升当前帧图像的特征质量。虽然这类算法能在一定程度上缓解视频帧图像恶化等问题，但是如果想要得到较高的检测精度，需要对前后大量的帧图像进行处理，将增加神经网络中的参数量。基于tubele的视频目标检测算法包括Seq-NMS、TCN、T-CNN等，基于光流的视频目标检测算法首先利用图像目标检测器检测每帧图像，然后通过不同的方法连接相邻帧图像中同一目标的候选框并生成tubelet，最后对tubelet中的候选框重新评分，以此优化每帧的检测结果。虽然这类算法在一定程度上减少了神经网络的计算量，但是难以克服长...

【技术保护点】
1.一种基于深度学习的视频目标检测方法，其特征在于，包括如下步骤：/n(1)利用深度卷积神经网络提取视频帧图像的CNN特征；/n(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化；所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程，以SeqtoSeq作为基础模型并增加了时空注意力机制，提取视频中的时序信息以提高视频帧的特征质量；/n(3)利用视频目标关系提取模块对候选框特征进行重新编码；所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框，对目标关系进行建模，计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布，从而挖掘目标之间潜藏的语义关系，并利用目标关系对候选框的特征进行重新编码，丰富候选框的特征表示；/n(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。/n

【技术特征摘要】
1.一种基于深度学习的视频目标检测方法，其特征在于，包括如下步骤：
(1)利用深度卷积神经网络提取视频帧图像的CNN特征；
(2)利用视频帧特征增强模块对视频帧图像的CNN特征质量进行优化；所述视频帧特征增强模块将视频帧特征增强视作视频帧序列的编解码过程，以SeqtoSeq作为基础模型并增加了时空注意力机制，提取视频中的时序信息以提高视频帧的特征质量；
(3)利用视频目标关系提取模块对候选框特征进行重新编码；所述视频目标关系提取模块根据基于增强后的特征获得的目标候选框，对目标关系进行建模，计算目标视觉特征影响力、位置特征影响力和时序特征影响力并进行归一化后得到注意力权重分布，从而挖掘目标之间潜藏的语义关系，并利用目标关系对候选框的特征进行重新编码，丰富候选框的特征表示；
(4)对每个目标利用分类器和回归器获得目标的类别以及该目标在帧图像中所处的位置。

2.根据权利要求1所述的一种基于深度学习的视频目标检测方法，其特征在于，所述步骤(2)中改进的SeqtoSeq模型以BiConvLSTM网络结构作为编码器，以ConvLSTM作为解码器；BiConvLSTM中对于每个隐藏层输出与输入的帧图像特征不是简单的线性聚合，而是先对特征图进行空间对齐；对齐的方式是首先利用光流网络根据隐藏层输出和帧图像特征计算出光流图，然后利用双线性插值函数，将隐藏层输出沿着光流方向传播到帧图像特征。

3.根据权利要求1所述的一种基于深度学习的视频目标检测方法，其特征在于，所述步骤(2)中时空注意力机制的实现过程包括：首先将编码器的各个单元与解码器中的单元进行匹配，并计算编码器的各个单元对解码器中单元的影响力；然后对各个影响力利用softmax函数进行运算，得到注意力权重分布；最后对注意力权重分布进行加权求和得到注意力特征；其中在对编码器单元和解码器单元进行匹配时，同时匹配两个单元的视觉特征和时间特征，视觉特征影响力visioni，j和时间特征影响力timei，j分别通过如下公式计算得到：
visioni，j＝Vi，j·ReLU(Wh·[hi，sj-1])

其中，hi表示编码器中第i个单元的隐藏层输出；sj-1表示解码器中第j-1个单元的隐藏层输出；Vi，j和Wh为卷积核；·表示卷积操作；ReLU表示Re...

【专利技术属性】
技术研发人员：杨鹏，闵克祥，何大治，纪雯，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人