基于视频动态前景掩膜的目标类别修正方法、检测方法技术

技术编号：21300566 阅读：22 留言：0更新日期：2019-06-12 08:10

本发明专利技术属于视频图像处理领域，具体涉及一种基于视频动态前景掩膜的目标类别修正方法、检测方法，旨在为了解决基于卷积神经网络的目标检测对小目标检测效果较差的问题。本发明专利技术修正方法包括：获取视频帧的第一修正集合；选取大于置信度阈值的目标矩形框作为候选框；将前景二值掩膜图中大于灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景像素点在其矩形框中的占比，并将其作为前景分数，将该分数与其最大置信目标类别的置信度进行融合，得到修正后的置信度并更新第一修正集合中的对应目标物体的最大置信目标类别置信度。本发明专利技术提高了目标检测准确性，尤其能提高小物体等难以被卷积神经网络提取特征的目标检测效果。

Target Category Correction Method and Detection Method Based on Video Dynamic Foreground Mask

The invention belongs to the field of video image processing, and specifically relates to a target category correction method and detection method based on video dynamic foreground mask, aiming at solving the problem that target detection based on convolution neural network has poor detection effect on small targets. The method includes: acquiring the first correction set of video frames; selecting a target rectangular box larger than the confidence threshold as the candidate box; using the pixels larger than the gray threshold in the foreground binary mask as the foreground points, calculating the proportion of foreground pixels in the rectangular frame of each candidate box, and taking it as the foreground fraction, and maximizing the fraction. Confidence of the target class is fused to obtain the modified confidence and update the maximum confidence of the corresponding target class in the first modified set. The invention improves the accuracy of target detection, especially improves the detection effect of small objects and other targets which are difficult to be extracted by convolution neural network.

全部详细技术资料下载

【技术实现步骤摘要】
基于视频动态前景掩膜的目标类别修正方法、检测方法
本专利技术属于视频图像处理领域，具体涉及一种基于视频动态前景掩膜的目标类别修正方法、检测方法。
技术介绍
目标检测是预测图像中所有目标物体的位置，用矩形框标记，并对框内的物体进行类别预测的技术。目前，常采用深度卷积神经网络提取鲁棒且具有表达能力的物体特征以进行目标检测，相比于之前的基于手工特征组合的目标检测方法，提升了目标检测的速度和精度。基于卷积神经网络的目标检测分为一段式和两段式。一段式检测器将图像输入一个端到端的基础神经网络，网络同时输出目标物体最终的矩形框位置和类别；两段式先粗定位出目标物体在图像中的位置，此时没有分辨矩形框内物体所属类别，然后利用神经网络提取的该矩形框对应位置内的特征，对框内物体进行细分类和框位置的微调。由于两段式由粗到细逐步检测，所以精度常高于一段式检测器；但由于一段式检测器不需要选取感兴趣区域，检测速度常快于两段式检测器。基于卷积神经网络的目标检测方法利用了神经网络出色的特征提取能力，相较于以往的手工特征更能提高检测效果，但小目标的特征提取常常受网络框架的限制。神经网络不具可解释性，其内部操作更像一个黑匣子，对神经网络框架的改变往往不能直接解决实际问题。目前对视频进行的目标检测多针对单帧处理，这就忽略了视频序列的时间相关性；而为利用视频帧的前后时间关系而直接使用神经网络处理视频序列，会耗费大量的时间和存储。
技术实现思路
为了解决现有技术中的上述问题，即为了解决基于神经网络的目标检测对小目标检测效果较差的问题，本专利技术的第一方面，提出了一种基于视频动态前景掩膜的目标类别修正方法，...

【技术保护点】
1.一种基于视频动态前景掩膜的目标类别修正方法，其特征在于，该方法包括：步骤S10，采用基于卷积神经网络的目标检测网络获取视频帧的第一修正集合；所述第一修正集合包括各目标物体的目标矩形框、最大置信目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述最大置信目标类别包括目标物体非背景分类中置信度最大的类别及其置信度；步骤S20，从所述第一修正集合中，选取大于预设置信度阈值的目标矩形框作为候选框；步骤S30，将前景二值掩膜图中大于预设灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景像素点在其矩形框中的占比，并作为该候选框的前景分数；所述前景二值掩膜图为现有前景检测算法获取的所述视频帧中运动物体的二值掩膜图；步骤S40，对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合，得到其最大置信目标类别修正后的置信度；步骤S50,基于步骤S40得到的修正后的置信度，更新所述第一修正集合中的对应目标物体的最大置信目标类别置信度，得到第二修正集合。

【技术特征摘要】
1.一种基于视频动态前景掩膜的目标类别修正方法，其特征在于，该方法包括：步骤S10，采用基于卷积神经网络的目标检测网络获取视频帧的第一修正集合；所述第一修正集合包括各目标物体的目标矩形框、最大置信目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述最大置信目标类别包括目标物体非背景分类中置信度最大的类别及其置信度；步骤S20，从所述第一修正集合中，选取大于预设置信度阈值的目标矩形框作为候选框；步骤S30，将前景二值掩膜图中大于预设灰度阈值的像素点作为前景点，对每一个候选框，分别计算其前景像素点在其矩形框中的占比，并作为该候选框的前景分数；所述前景二值掩膜图为现有前景检测算法获取的所述视频帧中运动物体的二值掩膜图；步骤S40，对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合，得到其最大置信目标类别修正后的置信度；步骤S50,基于步骤S40得到的修正后的置信度，更新所述第一修正集合中的对应目标物体的最大置信目标类别置信度，得到第二修正集合。2.根据权利要求1所述的基于视频动态前景掩膜的目标类别修正方法，其特征在于，步骤S40中“对每一个候选框，分别将其前景分数与其最大置信目标类别的置信度进行融合”，其融合公式为：f(cp,cf)＝cp(1-cf)+cf其中，f(cp,cf)为融合后的置信度，cp为类别p的类别置信度；cf为前景分数。3.根据权利要求1所述的基于视频动态前景掩膜的目标类别修正方法，其特征在于，前景二值掩膜图的大小缩放至所步骤S10中所采用目标检测网络的输入尺寸。4.根据权利要求1所述的基于视频动态前景掩膜的目标类别修正方法，其特征在于，步骤S20中预设的置信度阈值为0.1。5.根据权利要求1所述的基于视频动态前景掩膜的目标类别修正方法，其特征在于，步骤S30中预设的灰度阈值为50。6.一种基于视频动态前景掩膜的目标检测方法，其特征在于，该方法包括：步骤A10，获取视频帧的第一检测结果；所述第一检测结果包括各目标物体的目标矩形框、目标类别；所述目标矩形框为目标物体的最小外接矩形框；所述目标类别包括目标物体的多个预测分类及其置信度；步骤A20，基于权利要求1-5任一项所述的基于视频动态前景掩膜的目标类别修正方法，选取第一修正集合并进行修正得到第二修正集合；步骤A30，基于第二修正集合更新第一检测结果，得到第二检测结果；步骤A40，对所述第二检测结果中的目标矩形框进行非极大值抑制后处理，得到第三检测结果并...

【专利技术属性】
技术研发人员：胡晰远，王晓莲，陈晨，彭思龙，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人