一种基于物体导向外部记忆模块的视频物体检测模型制造技术

技术编号:24685624 阅读:49 留言:0更新日期:2020-06-27 08:33
本发明专利技术公开了一种基于物体导向外部记忆模块的视频物体检测模型,涉及计算机视觉方向的视频物体检测领域,包括外部记忆模块,以及与所述外部记忆模块相连接的外部记忆输入模块和外部记忆输出模块;所述外部记忆模块为物体导向的多级外部记忆模块;所述外部记忆模块包括特征存储矩阵,用于存储特征;所述特征由所述外部记忆输入模块从特征图中进行选择并输入;所述外部记忆输出模块将所述外部记忆模块中的所述特征输出到所述特征图中。本发明专利技术具有更好的存储空间利用率和更好的保存长时记忆的能力,同时达到更好的视频物体检测性能。

A video object detection model based on object oriented external memory module

【技术实现步骤摘要】
一种基于物体导向外部记忆模块的视频物体检测模型
本专利技术涉及计算机视觉方向的视频物体检测领域,尤其涉及一种基于物体导向外部记忆模块的视频物体检测模型。
技术介绍
基于图像的最新物体检测器为基于图像的物体检测提供了有效的检测框架,但是当这类图像物体检测器应用于视频物体检测时,由于视频帧的质量较低,存在各种在图片数据集中难得出现的情况,例如运动模糊,散焦和遮挡。由于在这类低质量视频帧中,仅凭一帧的内容无法准确检出物体,因此将这类基于单帧图片的物体检测方法直接应用于视频时,检测性能不能达到理想的状态。为了从根本上提高视频物体检测性能,使检测器能够提供更高质量的卷积特征,最新的视频物体检测器则利用视频中的丰富时序信息来增强卷积神经网络所提取的特征表示,尤其是在低质量帧的特征表示。由于帧内容移位,为了通过时序信息增强视频帧的特征表示,首先要对齐不同帧的卷积特征图,然后将对其的不同帧的特征图与当前帧聚合。这些时序特征图有多种不同的名称,例如时序记忆或记忆缓存,卷积特征图被直接当作用于传播记录时序信息的载体。我们将如何读取和写入时序记忆的方法放在一个统一的视图下来比较,这些方法被分为密集聚合方法和循环聚合方法。在密集聚合方法中,时序记忆由多个临近帧提取的卷积特征图组成。读取涉及将所有卷积特征图进行空间上的对齐并聚合到当前帧中。聚合的特征图用于在当前帧上进行检测。每次检测后,在检测下一帧时,都会写入下一帧的临近帧的特征图以替换当前存储的特征图。上述方法旨在为当前帧提供足够的时序信息。在循环聚合方法中,时序记忆内容仅包含一个卷积特征图,读写同时进行。当内存特征图对齐并聚合到当前帧中时,聚合的特征图用于在当前帧上进行检测,并成为新的内存特征图。上述方法相比密集聚合法的检测速度更快,并且能够进行在线物体检测。在密集聚合和循环聚合方法中,时序内存都是由检测网络内完整大小的特征图组成,其大小和内容组织完全取决于检测网络和输入帧中的特征分布,因此被称为“内部记忆”。内部记忆在时间传播方面有缺陷。在密集聚合方法中,通常会存储20多个临近帧的特征图,以提供足够的时序信息。由于内部记忆存储具有完整大小的特征图,与检测对象无关的冗余信息也会被存储和传播,从而导致存储效率低下。在循环聚合方法中,所有过去的信息都被压缩到一个特征图中,其中信息的空间位置仅取决于当前帧中内容的位置,会导致当当前帧的内容变差,物体表面特征或视野急剧变化时,很容易中断有用的长期信息,因为当前聚合的特征图将成为新的时序记忆并覆盖旧的记忆。有鉴于已有技术的上述缺陷,本专利技术所要解决的技术问题是提出一个更好地利用时序信息的视频物体检测模型,该模型可以拥有更好的存储空间利用率和更好的保存长时记忆的能力,同时达到更好的视频物体检测性能。因此,本领域的技术人员致力于开发一种基于物体导向外部记忆模块的视频物体检测模型,以克服现有技术中存在的技术缺陷。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提出一个更好地利用时序信息的视频物体检测模型,该模型可以拥有更好的存储空间利用率和更好的保存长时记忆的能力,同时达到更好的视频物体检测性能。除此之外,该模型还需要克服两个技术难点:1、如何使模型更能提取出有意义的记忆内容来,从而为之后帧的检测提供有意义的时序信息,同时避免记忆过于庞大,从而避免需要大量的存储空间来存储记忆而减慢检测速度。除此之外,还需要保证不需要的记忆被及时清除,需要的记忆被长时间保存来维护长时记忆;2、如何将外部记忆的内容精准的聚合到当前帧中。由于外部记忆具有可变大小的特性,并且其中存储有各个种类的记忆,所以只需要将相关的记忆聚合到当前检测的卷积特征图中对应的特征上,避免错误的聚合。为实现上述目的,本专利技术提供了一种基于物体导向的外部记忆模块的视频检测模型,包括外部记忆模块,以及与所述外部记忆模块相连接的外部记忆输入模块和外部记忆输出模块;所述外部记忆模块为物体导向的多级外部记忆模块;所述外部记忆模块包括特征存储矩阵,用于存储特征;所述特征由所述外部记忆输入模块从特征图中进行选择并输入;所述外部记忆输出模块将所述外部记忆模块中的所述特征输出到所述特征图中。进一步地,还包括物体检测模块。进一步地,所述物体检测模块包括物体检测框;所述物体检测框将位于所述物体检测框内的所述特征图上的所述特征裁出;所述外部记忆输入模块根据所述物体检测框的置信度进行所述特征的选择;如果所述物体检测框的所述置信度高于设定的阈值,则将位于所述物体检测框内的所述特征图上的所述特征输入所述外部记忆模块中;如果所述外部记忆模块中存在与输入的所述外部记忆模块中的所述特征相似的特征,则根据点积注意力机制留下置信度最高的所述特征,去除置信度不是最高的所述特征。进一步地,所述外部记忆输出模块根据所述特征图的所述点积注意力从所述外部记忆模块中的所述特征中选择与所述特征图相关的所述特征,并输出到所述特征图中。进一步地,所述特征图来自于一帧图像;所述特征图为深度卷积网络特征图;所述特征为卷积特征。进一步地,所述一帧图像来自于视频;所述视频包含多帧图像;所述多帧图像按照时间顺序排列。进一步地,所述特征存储矩阵中所存储的所述特征的数量可变。进一步地,还包括一种视频检测方法,所述方法包括以下步骤:步骤1、按时间顺序输入视频帧,所述视频检测模型对所述视频帧按帧提取所述卷积特征,形成所述视频帧的所述深度卷积网络特征图;步骤2、所述外部记忆模块读入所述步骤1中形成的所述深度卷积网络特征图,进行所述点击注意力的操作,形成所述点击注意力矩阵,并根据所述点积注意力矩阵将所述外部记忆模块中的所述卷积特征聚合到所述深度卷积网络特征图上;步骤3、经过聚合的所述深度卷积网络特征图被用于所述物体检测模块进行物体检测,输出所述视频帧的物体边框和置信度;步骤4、所述外部记忆输入模块根据检测出的所述物体边框,将所述置信度大于设定的阈值的所述物体边框内的所述卷积特征从经过聚合的所述深度卷积网络特征图上裁处并输入到所述外部记忆模块中;步骤5、继续检测下一帧,直到视频结束。进一步地,在所述步骤3中还输出所述视频帧的物体种类。进一步地,在开始步骤5之前,所述方法还进行如下判断:如果所述外部记忆模块中存在与输入的所述外部记忆模块中的所述卷积特征相似的特征,则根据点积注意力机制留下置信度最高的所述卷积特征,去除置信度不是最高的所述卷积特征。本专利技术所提供的视频物体检测模型和检测方法至少具有以下有益的技术效果:(1)本专利技术所提供的视频物体检测模型是视频物体检测中使用外部记忆的第一项工作,该外部记忆大小可变,具有更好的存储空间利用率和更好的保存长时记忆的能力,同时达到更好的视频物体检测性能;(2)本专利技术中的外部记忆输入模块可以根据物体边框和置信度筛选出优质的卷积特征写入到外部记忆中,并删去外部记忆中的冗余特征,在维本文档来自技高网
...

【技术保护点】
1.一种基于物体导向的外部记忆模块的视频检测模型,其特征在于,包括外部记忆模块,以及与所述外部记忆模块相连接的外部记忆输入模块和外部记忆输出模块;/n所述外部记忆模块为物体导向的多级外部记忆模块;/n所述外部记忆模块包括特征存储矩阵,用于存储特征;/n所述特征由所述外部记忆输入模块从特征图中进行选择并输入;/n所述外部记忆输出模块将所述外部记忆模块中的所述特征输出到所述特征图中。/n

【技术特征摘要】
1.一种基于物体导向的外部记忆模块的视频检测模型,其特征在于,包括外部记忆模块,以及与所述外部记忆模块相连接的外部记忆输入模块和外部记忆输出模块;
所述外部记忆模块为物体导向的多级外部记忆模块;
所述外部记忆模块包括特征存储矩阵,用于存储特征;
所述特征由所述外部记忆输入模块从特征图中进行选择并输入;
所述外部记忆输出模块将所述外部记忆模块中的所述特征输出到所述特征图中。


2.如权利要求1所述的基于物体导向的外部记忆模块的视频检测模型,其特征在于,还包括物体检测模块。


3.如权利要求2所述的基于物体导向的外部记忆模块的视频检测模型,其特征在于,所述物体检测模块包括物体检测框;
所述物体检测框将位于所述物体检测框内的所述特征图上的所述特征裁出;
所述外部记忆输入模块根据所述物体检测框的置信度进行所述特征的选择;
如果所述物体检测框的所述置信度高于设定的阈值,则将位于所述物体检测框内的所述特征图上的所述特征输入所述外部记忆模块中;
如果所述外部记忆模块中存在与输入的所述外部记忆模块中的所述特征相似的特征,则根据点积注意力机制留下置信度最高的所述特征,去除置信度不是最高的所述特征。


4.如权利要求3所述的基于物体导向的外部记忆模块的视频检测模型,其特征在于,所述外部记忆输出模块根据所述特征图的所述点积注意力从所述外部记忆模块中的所述特征中选择与所述特征图相关的所述特征,并输出到所述特征图中。


5.如权利要求4所述的基于物体导向的外部记忆模块的视频检测模型,其特征在于,所述特征图来自于一帧图像;所述特征图为深度卷积网络特征图;所述特征为卷积特征。


6.如权利要求5所述的基于物体导向...

【专利技术属性】
技术研发人员:马汝辉邓瀚铭宋涛华扬管海兵
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1