当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于时序的多帧集成目标检测算法制造技术

技术编号:22565614 阅读:15 留言:0更新日期:2019-11-16 12:14
本发明专利技术公开了一种基于时序的多帧集成目标检测算法,包括:S1、输入连续若干帧图片,得到包含若干张图片的序列;S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;S3、根据步骤S2中所得特征张量,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。本发明专利技术充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率,并结合FPN网络解决了小目标难以识别的问题。

A multi frame integrated target detection algorithm based on time sequence

The invention discloses a multi frame integrated target detection algorithm based on time sequence, including: S1, inputting several consecutive frames of pictures to obtain a sequence containing several pictures; S2, extracting image features of the sequence obtained in step S1 to obtain feature tensor of spatial information of the object to be detected; S3, extracting time sequence information contained in several frames of pictures according to the feature tensor obtained in step S2, Obtain a new feature tensor containing timing information; S4. Train the feature tensor obtained in step S3 based on the feature pyramid network, and output the bounding box position, class label and corresponding confidence degree of the object to be detected in each frame of the picture; S5. Draw the bounding box and class label surrounding the object to be detected in each frame of the picture according to the bounding box position and confidence degree of the output And confidence. The invention makes full use of the time sequence information existing between consecutive multi frame images to improve the accuracy of target detection, and solves the problem of small target difficult to recognize by combining with FPN network.

【技术实现步骤摘要】
一种基于时序的多帧集成目标检测算法
本专利技术属于计算机视觉的
,具体涉及一种基于时序的多帧集成目标检测算法。
技术介绍
目标检测一直是计算机视觉中的一个重要问题,目标检测就是讲目标定位与目标分类结合起来,利用图像处理技术、机器学习等多方面的知识,从图像(视频)中定位感兴趣的对象。目标分类负责判断输入的图像中是否包含所需物体(object),目标定位则负责表示目标物体的位置,并用外接矩形框定位。这需要计算机在准确判断目标类别的同时,还要给出每个目标相对精确的位置。随着计算机技术的迅猛发展,目标检测已在人脸识别、行人跟踪、车牌识别、无人驾驶等领域获得了广泛的应用。目前主流的目标检测算法都是基于CNN的,目前主流的算法主要存在以下几方面的问题:1、不能很好的解决目标检测中的多尺度问题,使得对小目标的识别率很低。2、较少的考虑图像前后帧之间的时序关系,大多是只考虑了待检测物体在图像中的位置信息。3、模型训练时间太长,对硬件要求太高。
技术实现思路
本专利技术的目的在于针对现有技术中的上述不足,提供一种基于时序的多帧集成目标检测算法,以解决小目标难以识别的问题。为达到上述目的,本专利技术采取的技术方案是:一种基于时序的多帧集成目标检测算法,其包括:S1、输入连续若干帧图片,得到包含若干张图片的序列;S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;S3、根据步骤S2中所得特征张量,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。优选地,步骤S2具体包括:将得到的若干张图片序列输入ResNet-50神经网络中提取图像特征,得到包含待检测对象的空间信息的C3、C4、C5层特征张量。优选地,步骤S2中,输入为n*m*m*3的张量,其中,第一维表示图片数量,第二、三维表示图片分辨率,第四维表示通道数。优选地,步骤S3的具体包括:将C3、C4、C5层的特征张量分别输入到1个双向CLSTM神经网络中,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的C3、C4、C5层特征张量。优选地,每一个双向LSTM神经网络包括一个前向神经网络和一个反向神经网络,前向和反向神经网络均包括若干个神经元。优选地,前向神经网络中,第1,2…n帧图像特征作为对应的第1,2…n个神经元的输入;反向神经网络中,第n,n-1…1帧图像特征作为对应的第1,2…n个神经元的输入;正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半,再将正向和反向神经网络的特征张量进行通道拼接,得到和输入的特征张量一样的通道数,不改变输入的特征张量的维度。优选地,步骤S4具体包括:将经过双向CLSTM计算出的C3、C4、C5层特征张量输入到特征金字塔网络中进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度。本专利技术提供的基于时序的多帧集成目标检测算法,具有以下有益效果:本专利技术充分利用连续的多帧图像间存在的时序信息来提高目标检测的准确率,并结合FPN网络解决了小目标难以识别的问题。除此,本专利技术在检测时同时考虑图像之间的时序信息和空间位置信息,大幅度提高目标检测识别的正确率和减少模型训练的时间。附图说明图1为提取图像时序特征。图2为双向LSTM提取图像时序特征。图3为目标检测框架。图4为目标检测总体框架图5为目标检测效果图图6为流程图。具体实施方式下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。根据本申请的一个实施例,参考图6,本方案的基于时序的多帧集成目标检测算法,包括:S1、输入连续8帧图片,得到包含8张图片的序列;S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;S3、根据步骤S2中所得特征张量,提取8帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。根据本申请的一个实施例,以下对步骤S1至S5进行详细描述。S1、参考图1,输入包含待检测对象且具备时序关系的连续8帧图片,得到包含8张图片的序列,其具体步骤包括:首先输入包含待检测图像且具备时序关系(即存在前后关系)的连续8帧图片,8张图片的分辨率均为288*288,分辨率可改变。每张图片的通道数为3,8帧图片即可转变为8*288*288*3的张量,其中第一维表示图片数量,第二、三维表示图片分辨率,第四维表示图片通道数。S2、参考图1,将得到的图片序列输入到一个ResNet-50神经网络中提取图像特征,得到包含待检测对象的空间信息的C3、C4、C5层(即ResNet-50神经网络中第三、第四、第五层)特征张量,其具体步骤包括:将步骤S1中所得张量输入到ResNet-50神经网络中提取每张图像的空间信息,得到包含待检测对象的空间信息的C3、C4、C5层(即ResNet-50神经网络中第三、第四、第五层)特征张量,C3、C4、C5层特征张量维度为8*36*36*512、8*18*18*1024和8*9*9*2048。S3、参考图2,把C3、C4、C5层的特征张量分别输入到3个双向CLSTM神经网络中提取8帧图片中蕴含的时序信息,得到新的蕴含时序信息的C3、C4、C5层特征张量,其具体步骤包括:将包含时序信息的C3、C4、C5层特征张量分别输入到一个双向LSTM神经网络中提取连续8帧图像间的时序特征。每一个双向LSTM神经网络由一个前向神经网络和一个反向神经网络组成,前向和反向神经网络均由8个神经元组成,其区别在于输入的顺序不同。在前向神经网络中,第1,2…8帧图像特征作为对应的第1,2…8个神经元的输入;而在反向神经网络中,第8,7…1帧图像特征作为对应的第1,2…8个神经元的输入。正向神经网络和反向神经网络输出的特征张量的通道数为输入的一半(如输入8*9*9*2048的特征张量,输出为8*9*9*1024),再将正向和反向神经网络的特征张量进行通道拼接,得到和输入的特征张量一样的通道数,从而不改变输入的特征张量的维度。S4、参考本文档来自技高网
...

【技术保护点】
1.一种基于时序的多帧集成目标检测算法,其特征在于,包括:/nS1、输入连续若干帧图片,得到包含若干张图片的序列;/nS2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;/nS3、根据步骤S2中所得特征张量,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;/nS4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;/nS5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。/n

【技术特征摘要】
1.一种基于时序的多帧集成目标检测算法,其特征在于,包括:
S1、输入连续若干帧图片,得到包含若干张图片的序列;
S2、提取步骤S1中所得序列的图像特征,得到待检测对象空间信息的特征张量;
S3、根据步骤S2中所得特征张量,提取若干帧图片中蕴含的时序信息,得到新的蕴含时序信息的特征张量;
S4、基于特征金字塔网络,对步骤S3中所得特征张量进行训练,输出待检测物体在每帧图片中的包围盒位置、类标签以及对应的置信度;
S5、根据输出的包围盒位置以及置信度,在每帧图片中画出包围待检测对象的包围盒、类标签和置信度。


2.根据权利要求1所述的基于时序的多帧集成目标检测算法,其特征在于:所述步骤S2具体包括:
将得到的若干张图片序列输入ResNet-50神经网络中提取图像特征,得到包含待检测对象的空间信息的C3、C4、C5层特征张量。


3.根据权利要求2所述的基于时序的多帧集成目标检测算法,其特征在于:所述步骤S2中,输入为n*m*m*3的张量,其中,第一维表示图片数量,第二、三维表示图片分辨率,第四维表示通道数。


4.根据权利要求1所述的基于时序的多帧集成目标检测算法,其特征在...

【专利技术属性】
技术研发人员:陈良银周良学谢晓东黄韫栀刘伦鑫廖俊华段海涵代湖明张媛媛陈彦如
申请(专利权)人:四川大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1