基于深度学习的视频实时多目标检测与跟踪方法和装置制造方法及图纸

技术编号:27197818 阅读:26 留言:0更新日期:2021-01-31 11:58
本申请涉及一种基于深度学习的视频实时多目标检测与跟踪方法和装置。所述方法包括:获取视频数据样本,将其输入基于密集连接深度卷积网络的多目标检测模型,使用yolo算法提取视频数据样本特征,利用注意力机制对浅层特征和深层特征进行融合,输出包括预测边界框的视频帧序列。模型训练时,预设的损失函数为:将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列并进行多目标跟踪。本方法可以提高多目标检测模型的特征利用能力、小目标检测能力和目标检测模型的精确度,增强对视频多目标的实时检测和跟踪能力。踪能力。踪能力。

【技术实现步骤摘要】
基于深度学习的视频实时多目标检测与跟踪方法和装置


[0001]本申请涉及基于深度学习的计算机视觉
,特别是涉及一种基于深度学习的视频实时多目标检测与跟踪方法和装置。

技术介绍

[0002]随着社会的进步和科技的发展,计算机视觉渐渐融入到视频监控系统中,发展成为智能视频监控系统。智能视频监控系统的主要目的是对目标视频数据进行一系列处理,实现对目标的自动检测和分析,以及对运动目标的自动跟踪,通过这些处理使得计算机系统代替人类对监视的场景进行实时监控。
[0003]然而在无人机等新型视频数据采集平台的视角下进行目标检测与跟踪任务存在很大的挑战。首先,因这类平台存在拍摄的目标尺度较小、图像分辨率较低、目标检测中误检漏检频繁、拍摄背景环境复杂多变等问题;其次,这类平台在执行目标跟踪任务时,平台与目标间的快速相对运动会产生运动模糊,且在目标被遮挡或与障碍物重合时容易发生“ID交换”。
[0004]随着对目标检测和跟踪性能要求的提高,基于深度学习的视频实时目标检测与跟踪技术已经成为计算机视觉领域的重要研究课题,并逐渐用于新型视频采集平台,即通过搭建适用于目标检测的深度卷积神经网络模型对目标进行检测和跟踪。目前,很多研究集中在ResNet基础网络模型上训练行人目标数据,从而实现对多行人目标的检测和跟踪任务,在一定程度上解决了卷积网络或全连接网络在信息传递的时信息丢失问题,但其目标检测效率欠佳。另外,现有的Yolo v3神经网络模型基于DarkNet53特征提取网络提升了目标检测速度和小目标检测效果,但由于DarkNet53网络未能很好的利用浅层特征信息,导致特征信息在网络逐层传递过程中流失,因此特征信息利用率较低。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够充分利用各个尺度特征图上的特征信息、提高目标检测和跟踪精度的基于深度学习的视频实时多目标检测与跟踪方法和装置。
[0006]一种基于深度学习的视频实时多目标检测与跟踪方法,所述方法包括:
[0007]获取包括真实边界框的视频数据样本。
[0008]将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型,基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0009]利用注意力机制对浅层特征和深层特征进行融合,得到包括预测边界框的视频帧序列。
[0010]根据预设的损失函数对多目标检测模型进行训练,得到训练好的多目标检测模型。预设的损失函数为:将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0011]将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列,根据包括检测边界框的视频帧序列进行多目标跟踪。
[0012]其中一个实施例中,构建预先设置的基于密集连接深度卷积网络的多目标检测模型的方法包括:
[0013]在DenseNet神经网络架构的特征融合网络中加入用于浅层特征与深层特征融合的卷积块注意力模块,得到特征提取网络架构。
[0014]基于特征提取网络架构构建基于yolo算法的多目标检测模型。
[0015]其中一个实施例中,将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列,根据包括检测边界框的视频帧序列进行多目标跟踪的步骤包括:
[0016]对待检测视频数据进行缩放处理。
[0017]将处理后的待检测数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列。
[0018]基于Deep sort算法对视频帧序列中的检测边界框进行帧间关联,得到多目标跟踪结果。
[0019]其中一个实施例中,注意力机制的实现方法包括:
[0020]构建用于浅层特征与深层特征融合的卷积块注意力模块,该卷积注意力模块包括一个全局池化层,一个用于降低特征维度的全连接层,一个用于学习各特征通道间非线性关系的Relu激活层,一个用于放大特征维度的全连接层,以及一个输出各维度权重的Sigmoid激活层。
[0021]其中一个实施例中,基于Deep sort算法对视频帧序列中的检测边界框进行帧间关联,得到多目标跟踪结果的步骤包括:
[0022]将包括检测边界框的视频帧序列输入预先训练好的外观特征提取网络,对检测边界框中的视频帧数据进行特征提取,得到对应的外观特征向量。
[0023]基于检测边界框的位置和对应的外观特征向量,使用Deep sort算法对检测边界框进行帧间关联,得到多目标跟踪结果。
[0024]其中一个实施例中,将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列,根据包括检测边界框的视频帧序列进行多目标跟踪的步骤包括:
[0025]将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列。
[0026]基于非极大值抑制技术保留置信值高于预设值的检测边界框,根据包括检测边界框的视频帧序列进行多目标跟踪。
[0027]其中一个实施例中,获取包括真实边界框的视频数据样本的步骤之前,还包括:
[0028]获取用于模型训练的视频数据。
[0029]使用维度聚类算法计算视频数据的各帧中的真实边界框,得到包括真实边界框的视频数据样本。
[0030]一种基于深度学习的视频实时多目标检测与跟踪装置,其特征在于,所述装置包括:
[0031]视频数据样本获取模块,用于获取包括真实边界框的视频数据样本。
[0032]特征提取模块,用于将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型,基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0033]特征融合模块,用于利用注意力机制对浅层特征和深层特征进行融合,得到包括预测边界框的视频帧序列。
[0034]模型训练模块,用于根据预设的损失函数对多目标检测模型进行训练,得到训练好的多目标检测模型。预设的损失函数为:将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比。
[0035]视频实时多目标检测与跟踪模块,用于将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列,根据包括检测边界框的视频帧序列进行多目标跟踪。
[0036]一种视频实时多目标检测与跟踪设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0037]获取包括真实边界框的视频数据样本。
[0038]将视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型,基于yolo算法提取视频数据样本的浅层特征和深层特征。
[0039]利用注意力机制对浅层特征和深层特征进行融合,得到包括预测边界框的视频帧序列。
[0040]根据预设的损失函数对多目标检测模型进行训练,得到训练好的多目标检测模型。预设的损失函数为:将yolo算本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频实时多目标检测与跟踪方法,所述方法包括:获取包括真实边界框的视频数据样本;将所述视频数据样本输入预先设置的基于密集连接深度卷积网络的多目标检测模型,基于yolo算法提取所述视频数据样本的浅层特征和深层特征;利用注意力机制对所述浅层特征和所述深层特征进行融合,得到包括预测边界框的视频帧序列;根据预设的损失函数对所述多目标检测模型进行训练,得到训练好的多目标检测模型;所述预设的损失函数为:将yolo算法的损失函数中的视频帧序列对应的真实边界框和预测边界框的交并比替换为广义交并比;将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列,根据所述包括检测边界框的视频帧序列进行多目标跟踪。2.根据权利要求1所述的方法,其特征在于,构建所述预先设置的基于密集连接深度卷积网络的多目标检测模型的方法包括:在DenseNet神经网络架构的特征融合网络中加入用于浅层特征与深层特征融合的卷积块注意力模块,得到特征提取网络架构;基于所述特征提取网络架构构建基于yolo算法的多目标检测模型。3.根据权利要求1所述的方法,其特征在于,所述将待检测视频数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列,根据所述包括检测边界框的视频帧序列进行多目标跟踪的步骤包括:对待检测视频数据进行缩放处理;将处理后的待检测数据输入训练好的多目标检测模型,输出包括检测边界框的视频帧序列;基于Deep sort算法对视频帧序列中的检测边界框进行帧间关联,得到多目标跟踪结果。4.根据权利要求2所述的方法,其特征在于,所述注意力机制的实现方法包括:构建用于浅层特征与深层特征融合的卷积块注意力模块,所述卷积注意力模块包括一个全局池化层,一个用于降低特征维度的全连接层,一个用于学习各特征通道间非线性关系的Relu激活层,一个用于放大特征维度的全连接层,以及一个输出各维度权重的Sigmoid激活层。5.根据权利要求3所述的方法,其特征在于,所述基于Deep sort算法对视频帧序列中的检测边界框进行帧间关联,得到多目标跟踪结果的步骤包括:将所述包括检测边界框的视频帧序列输入预先训练好的外观特征提取网络,对所述检测边界框中的...

【专利技术属性】
技术研发人员:罗明柱何速周东旭黄智捷欧阳大亮田晓涵
申请(专利权)人:航天科工深圳集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1