一种基于全局和局部信息融合的目标检测方法技术

技术编号:23985162 阅读:121 留言:0更新日期:2020-04-29 13:10
本发明专利技术涉及一种基于全局和局部信息融合的目标检测方法,属于视频图像处理领域。首先,将场景送入卷积神经网络中增加网络的记忆能力,使网络更好的学习场景上下文信息,得到全局的场景特征;其次,借鉴注意力机制,自适应地建立物体与物体之间的关系,得到局部的物体特征;最后,通过信息传递融合场景特征和物体特征增强特征表达。本发明专利技术的优点是,同时考虑全局场景特征和局部物体特征,并通过信息传递更好的表征目标特征,大量的对比实验表明,其检测性能明显优于其它目标检测方法。

A target detection method based on global and local information fusion

【技术实现步骤摘要】
一种基于全局和局部信息融合的目标检测方法
本专利技术属于视频图像处理领域,尤其是指一种基于全局和局部信息融合的目标检测方法。
技术介绍
目标检测在自主驾驶、机器人、视频监控、行人检测等领域有着广泛的应用,是计算机视觉和机器学习领域的研究热点。经典的目标检测技术主要是基于手动特征的使用,可以分为三个步骤:(1)目标区域的选择;(2)特征提取;(3)分类。在第一步中,广泛采用滑动窗口策略,利用不同维数和长宽比的滑动窗口,对候选区域进行详尽的搜索。第二步对候选区域进行分析,可以使用多种技术进行特征提取,如尺度不变特征变换(SIFT)、方向梯度直方图(HOG)和加速鲁棒特征(SURF)等传统方式。第三步,利用支持向量机、AdaBoost等分类器对候选区域进行分类。虽然经典方法得到了良好的检测效果,但仍然存在一些限制,阻碍了其在速度和精度上的突破。例如,由于滑动窗口策略会在原始图像中捕获许多候选区域,并且需要逐个提取区域的特征,因此经典的目标检测方法非常耗时。而且,由于人工设计的特征对物体形态、光照和遮挡的变化非常敏感,导致传统的目标检测方法缺乏鲁棒性。近年来,一些深度学习技术被应用到物体检测中,克服了传统方法的局限性。目前最先进的基于深度学习的检测器大致可以分为两类。一种是两阶段方法,首先通过选择性搜索(SelectiveSearch)、EdgeBoxes、深度掩码(DeepMask)或区域建议网络(RPN)形成一系列候选对象建议,然后将这些建议框输入卷积神经网络进行分类。另一种是一阶段方法,它直接预测多个对象在整个特征图上的置信度和位置,而不生成候选对象建议。基于区域的卷积网络(R-CNN)是目标检测和深度学习相结合的开端,也是一种具有代表性的两阶段方法。该方法通过从候选区域中提取特征,并采用线性支持向量机作为分类器,达到了很好的目标检测精度。但是,由于卷积网络前向传递是针对每个对象建议独立执行的,因此R-CNN的计算成本很高。此外,包含特征提取、网络微调、训练支持向量机和边界框回归的多阶段训练策略也使得R-CNN的训练速度变慢。由此,He等人提出一种空间金字塔汇聚网络(SPPNet)。该方法虽然可以通过共享计算来提高R-CNN的速度,但它的训练也是一个多级管道。此外,SPPNet中提出的微调算法无法更新卷积层,在网络深度较深时限制了其准确性。为了进一步降低计算成本,提高目标检测的准确性,Girshick等人提出了一种快速的基于区域的卷积网络(FastR-CNN)。FastR-CNN利用一种新颖的RoI-pooling操作,从共享卷积特征图中提取每个候选区域的特征向量,大大提高了处理速度。在FastR-CNN中,还可以通过在训练过程中更新所有网络层来提高检测精度。虽然SPPNet和FastR-CNN有效地减少了目标检测网络的训练时间,但是区域建议计算仍然是它们的瓶颈。为了解决这个问题,Ren等人提出了FasterR-CNN,该方法用RPN代替选择性搜索方法实现端到端的训练。RPN通过与检测网络共享全图像卷积特征,使得几乎无损耗的区域方案能够解决FastR-CNN耗时的问题。然而,在RPN中,将一组固定的滤波器滑动到一组固定的卷积特征映射上所产生的多个尺度建议可能与对象的大小不一致。因此,Cai等人提出了多尺度卷积神经网络(MS-CNN)来匹配不同尺度对象的接受域,并采用多输出层进行对象检测。与上述方法不同的是,一阶段方法可以在保证一定准确率的前提下实现完整的单网络训练。这一类的代表性算法有YOLO,YOLO9000,G-CNN和SSD等。通过将对象检测任务视为一个回归问题,YOLO在空间上分离边界框和相关的类概率。由于YOLO算法的整个检测管道是单个网络,可以直接对网络进行端到端优化。SSD方法将多个具有不同分辨率的特征图的预测组合起来,以检测各种大小的物体。由于在SSD中消除了提案生成、后续像素重采样和特征重采样阶段,因此易于训练。虽然单阶段方法的运行速度可以显著提高,但其精度始终低于两阶段方法。无论是一阶段还是两阶段算法,上述大部分算法都没有有效地利用对象之间的关系,只是利用与对象本身相关联的特征进行检测。最近,一些研究者认识到关系的重要性,提出了一些方法通过探索对象之间的关系来达到更好的检测结果。Bell等人提出了一种空间递归神经网络(RNNs),用于探索整个图像的上下文信息。Xu等人提出了通过迭代消息传递生成场景图的方法。网络将单个对象视为拓扑中的一个点,将对象之间的关系视为边。通过在边和点之间传递信息,证明了物体之间关系的建立能够提高检测性能。Georgia等人提出了以人为主要线索建立与周围其他物体的关系。结果表明一个人的外部行为可以提供强大的信息来定位与之交互的对象。Liu等人提出了一种结构推理网(SIN),用于探测目标之间的结构关系。然而,SIN只考虑了对象提案的空间坐标,而忽略了物体的外观特征。Han等人提出了一个关系网络,该网络既考虑了物体的外观特征,又考虑了物体的几何特征。然而,在关系网络中忽略了场景级的特征。
技术实现思路
本专利技术提供一种基于全局和局部信息融合的目标检测方法,目的是为了更精确的检测图像中的物体,提出的方法适用于目标跟踪,目标识别,视频监控,视频压缩等。本专利技术采取的技术方案是,包括下列步骤:(1)读入一幅图像I;(2)提取场景上下文信息;通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能,将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图,特征图作为两部分的输入,一部分作为场景上下文模块的输入,另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入,在场景上下文模块中,在所有特征图上执行ROI-池化、拼接以及全连层接等操作,获得场景特征fs,并作为场景GRUs(1)的输入;(3)建立物体之间的关系模型为了对RoIs进行分类和回归,关系模块不仅利用卷积层提取的外观特征和物体的坐标信息,而且利用所有周围物体的信息作为关系GRUr(1)的输入;给定N个对象的输入集其中是卷积神经网络提取的第n个物体的原始外观特征,表示由物体边界框的4维特征组成的第n个对象的位置特征,边界框的特征包括宽度w,高度h和中心坐标(x,y),关系通道是处理不同对象之间关系的模块,Nr是关系通道数量,Nr=64,通过对象关系通过模块,可以得到融合周围所有对象位置信息的融合所有关系通道上的向量和获得物体特征作为关系GRUr(1)的输入;(4)建立信息传递模型场景GRUs(1)和关系GRUr(1)相互通信,以不断跟新物体特征,GRUs(1)、GRUs(2)、GRUr(1)和GRUr(2)均有两个门,一个称为更新门z,它决定要传递多少来自以前时间和当前时间的信息,另一个门是复位门r,它控制有多少过去的信息被遗忘,使用两组并行方式传递信息,一组包括场景GRUs(1)和关系GRUr(1),另一组包括场景GRUs(2)和关系GRUr(2),利用原始的外观特征来表示网络的初始本文档来自技高网
...

【技术保护点】
1.一种基于全局和局部信息融合的目标检测方法,其特征在于包括下列步骤:/n(1)读入一幅图像I;/n(2)提取场景上下文信息;/n通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能,将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图,特征图作为两部分的输入,一部分作为场景上下文模块的输入,另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入,在场景上下文模块中,在所有特征图上执行ROI-池化、拼接以及全连层接等操作,获得场景特征f

【技术特征摘要】
1.一种基于全局和局部信息融合的目标检测方法,其特征在于包括下列步骤:
(1)读入一幅图像I;
(2)提取场景上下文信息;
通过捕捉不同的对象之间的相互作用信息以及对象与场景之间的相互作用等信息能够有效提升目标检测性能,将图像I输送到一个具有13个卷积层和4个池化层的深度网络获得特征图,特征图作为两部分的输入,一部分作为场景上下文模块的输入,另一部分是通过区域建议网络RPN得到区域建议ROIs,然后作为关系模块的输入,在场景上下文模块中,在所有特征图上执行ROI-池化、拼接以及全连层接等操作,获得场景特征fs,并作为场景GRUs(1)的输入;
(3)建立物体之间的关系模型
为了对RoIs进行分类和回归,关系模块不仅利用卷积层提取的外观特征和物体的坐标信息,而且利用所有周围物体的信息作为关系GRUr(1)的输入;
给定N个对象的输入集其中ftn是卷积神经网络提取的第n个物体的原始外观特征,表示由物体边界框的4维特征组成的第n个对象的位置特征,边界框的特征包括宽度w,高度h和中心坐标(x,y),关系通道是处理不同对象之间关系的模块,Nr是关系通道数量,Nr=64,通过对象关系通过模块,可以得到融合周围所有对象位置信息的融合所有关系通道上的向量和ftn获得物体特征ftn′,作为关系GRUr(1)的输入;
(4)建立信息传递模型场景GRUs(1)和关系GRUr(1)相互通信,以不断跟新物体特征,GRUs(1)、GRUs(2)、GRUr(1)和GRUr(2)均有两个门,一个称为更新门z,它决定要传递多少来自以前时间和当前时间的信息,另一个门是复位门r,它控制有多少过去的信息被遗忘,使用两组并行方式传递信息,一组包括场景GRUs(1)和关系GRUr(1),另一组包括场景GRUs(2)和关系GRUr(2),利用原始的外观特征来表示网络的初始状态hi,场景GRUs(1)、GRUs(2)和关系GRUr(1)、GRUr(2)的处理机制是相同的,得到最终的场景特征和物体特征的融合信息;
(5)建立物体类别预测和边界框回归模型;
将场景GRUs(2)和关系GRUr(2)获得的综合信息输入到全连接层,并经过softmax预测物体的类别和边界检测框,预测物体分类是利用已经获得的融合特征信息,通过全连接层和softmax计算每个建议框应该具体属于哪个类别,并输出所属分类的概率;同时,利用边界框回归获得每个建议框的位置偏移量,使目标边界检测框更加精准,实现目标检测。


2.根据权利要求1所述的一种基于全局和局部信息融合的目标检测方法,其特征在于:步骤(3)中关系通道各模块的处理机制是相同的,其中一个关系通道模块的工作原理是:
首先,通过点积运算得到第m个和第n个物体之间的外观权重



其中,WK、WQ是将第m个物体和第n个物体原始外观特征ftm和ftn映射到子...

【专利技术属性】
技术研发人员:齐妙王建中张燕妮孔俊吕英华郑彩侠徐慧
申请(专利权)人:东北师范大学
类型:发明
国别省市:吉林;22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1