基于三维卷积神经网络的边界框回归方法、系统、设备及介质技术方案

技术编号:20177690 阅读:26 留言:0更新日期:2019-01-23 00:38
本发明专利技术公开了一种基于三维卷积神经网络的边界框回归方法、系统、设备及介质,所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。本发明专利技术首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。

BOUNDARY BOUNDARY BOUNDARY REGRESSION METHOD, SYSTEM, EQUIPMENT AND MEDIUM BASED ON THREE-DIMENSIONAL CONVOLUTION NEURAL NETWORK

The invention discloses a boundary box regression method, system, equipment and media based on three-dimensional convolution neural network. The method includes: constructing a regression device and regressing the target boundary box predicted by the tracking algorithm; generating sample pairs and training the regression device according to the first frame information of a given tracking sequence; and using the regression device to track the target in each subsequent frame. The target boundary box predicted by the tracking algorithm is regressed. When the input of the timing dimension of the three-dimensional convolution neural network is set to N frame, the tracking target image of the first N frame is used as the input of the three-dimensional convolution neural network. Then, according to the information of the first frame, sample pairs are generated to train the regressor adaptively. For the first time, the boundary box regression is applied in the field of target tracking algorithm based on three-dimensional convolution neural network, which makes the predicted boundary box more close to the real value after regression and improves the accuracy of tracking effect.

【技术实现步骤摘要】
基于三维卷积神经网络的边界框回归方法、系统、设备及介质
本专利技术涉及一种边界框回归方法,尤其是一种基于三维卷积神经网络的边界框回归方法、系统、计算机设备及存储介质,属于计算机视觉的目标跟踪领域。
技术介绍
视觉目标(单目标)跟踪任务是计算机视觉领域一直以来研究的热点,尤其是近年来科技生产力的高速发展,视频监控、无人机飞行、自动驾驶等等领域有着广泛应用。视觉目标跟踪任务描述的是在给定的视频序列场景下,只提供跟踪目标在第一帧中的位置,然后通过算法预测该目标接下来的位置和大小。边界框回归通常在判别式模型中应用,可以使得原算法预测的边界框更加精确。当前目标跟踪任务中使用到的边界框回归方法大多基于二维卷积神经网络,例如来自韩国的POSTECH这个团队的MDNet算法、美国天普大学的SANet算法等等,其算法主要思想是在上一帧图像跟踪目标的邻域采样多个候选区域,利用二维卷积神经网络提取图像的空间信息,然后计算候选区域属于目标和背景的二分类得分,并取目标得分最高的候选区域,最后对其边界框进行回归,得到更准确的位置和大小。而基于三维卷积神经网络的边界框回归方法目前还没有。
技术实现思路
本专利技术的第一个目的是为了解决上述现有技术的缺陷,提供了一种基于三维卷积神经网络的边界框回归方法,该方法首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。本专利技术的第二个目的在于提供一种基于三维卷积神经网络的边界框回归系统。本专利技术的第三个目的在于提供一种计算机设备。本专利技术的第四个目的在于提供一种存储介质。本专利技术的第一个目的可以通过采取如下技术方案达到:基于三维卷积神经网络的边界框回归方法,所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优训练。进一步的,所述对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框,具体包括:使用回归器将跟踪算法预测出的目标边界框沿着中心点平移,再对该目标边界框的宽高进行缩放,得到更接近真实边界框的目标边界框。进一步的,所述根据给定跟踪序列的第一帧信息,生成样本对并训练回归器,具体包括:在给定跟踪序列的第一帧真实边界框的邻域,均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框;通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量,再计算特征向量对应的理论真实值;将目标边界框所包含图像的特征向量和理论真实值构成一个样本对;将生成的多个样本对作为训练样本训练回归器。进一步的,所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,具体包括:将N个同样的第一帧目标图像作为三维卷积神经网络的输入;在后续每一帧的目标跟踪过程中,根据跟踪算法预测出的多个目标候选区域,取符合预设条件的M个目标候选区域;分别通过回归器对M个目标候选区域的边界框进行回归,得到M个回归边界框;对M个回归边界框取平均,得到一个边界框,作为当前帧目标的边界框。进一步的,所述多个目标候选区域为多个带有置信度得分的目标候选区域;所述预设条件包括:所述置信度得分大于或等于置信度阈值。进一步的,所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,还包括:确定后续每一帧中三维卷积神经网络的时序维度输入量;其中,所述时序维度输入量设定为N,即要求输入当前帧以及前N-1帧;在跟踪前N-1帧的过程中,累计跟踪的帧数小于N,采用时序对齐策略使总帧数满足时序维度输入量N。进一步的,所述采用时序对齐策略使总帧数满足时序维度输入量N,具体包括:假设当前帧为第S帧,其中S<N,累计跟踪已测的帧数共S帧,在已测帧前填充N-S份第一帧,使总帧数满足时序维度输入量N。本专利技术的第二个目的可以通过采取如下技术方案达到:基于三维卷积神经网络的边界框回归系统,所述系统包括:构建模块,用于构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;训练模块,用于根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;回归模块,用于在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;调优训练模块,用于在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。本专利技术的第三个目的可以通过采取如下技术方案达到:计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的边界框回归方法。本专利技术的第四个目的可以通过采取如下技术方案达到:存储介质,存储有程序,所述程序被处理器执行时,实现上述的边界框回归方法。本专利技术相对于现有技术具有如下的有益效果:1、本专利技术首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,在边界框回归中引入了提取跟踪目标在视频帧间的运动变化信息,充分利用了视频的时序性,使得原始算法预测出的边界框经过回归后能够更加准确地定位目标,提高目标位置和大小与真实值的重叠率,使得跟踪效果更加精确,因此其具有独创性。2、本专利技术可以融合二维卷积神经网络提取出的图像空间信息特征,使得回归器的输入特征向量信息量更丰富,包含目标的空间信息和时序信息,可以进一步提高边界框回归的效果,提高目标位置和大小与真实值的重叠率,使得跟踪效果更加精确。3、本专利技术在首帧训练中,可以选取大量符合要求的多种尺度和多种大小的候选区域特征量来训练网络,使得回归器具有良好的泛化能力,鲁棒性强等特点,同时,在跟踪到第N帧时,可以充分利用三维卷积网络的时序性,重新训练回归器,并且训练方法适用于各种序列的跟踪目标,具有普适性和通用性,有着广泛的应用场景。附图说明图1为本专利技术实施例1的基于三维卷积神经网络的边界框回归方法的流程图。图2为本专利技术实施例1的基于三维卷积神经网络的边界框回归方法应用在一个跟踪序列的整体流程图。图3是本专利技术实施例1的利用首帧训练回归器的结构图。图4是本专利技术实施例1的正向回归预测的结构图。图5是本专利技术实施例1的回归器适应性调优训练的结构图。图6a~图6d为本专利技术实施例1的基于三维卷积神经网络的边界框回归方法在ObjectTrackingBenchmark(OTB100)数据集“MountainBike”序列的部分跟踪测试结果图。图7a~图7d为本专利技术实施例1的基于三维卷积神经网络的边界框回归方法在ObjectTrackingBenchmark(OTB100)数据集“Girl2”序列的部分跟踪测试结果图。图8为本专利技术实施例2的基于三维卷积神经网络的边界框回归系统的结构框图。图9为本专利技术实施例2的训练模块的结构框图。图10为本专利技术实施例2的回归模块的结构框图。具体实施方式下面结合本文档来自技高网...

【技术保护点】
1.基于三维卷积神经网络的边界框回归方法,其特征在于:所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。

【技术特征摘要】
1.基于三维卷积神经网络的边界框回归方法,其特征在于:所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。2.根据权利要求1所述的边界框回归方法,其特征在于:所述对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框,具体包括:使用回归器将跟踪算法预测出的目标边界框沿着中心点平移,再对该目标边界框的宽高进行缩放,得到更接近真实边界框的目标边界框。3.根据权利要求1所述的边界框回归方法,其特征在于:所述根据给定跟踪序列的第一帧信息,生成样本对并训练回归器,具体包括:将N个同样的第一帧目标图像作为三维卷积神经网络的输入;在给定跟踪序列的第一帧真实边界框的邻域,均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框;通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量,再计算特征向量对应的理论真实值;将目标边界框所包含图像的特征向量和理论真实值构成一个样本对;将生成的多个样本对作为训练样本训练回归器。4.根据权利要求1所述的边界框回归方法,其特征在于:所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,具体包括:在后续每一帧的目标跟踪过程中,根据跟踪算法预测出的多个目标候选区域,取符合预设条件的M个目标候选区域;分别通过回归器对M个目标候选区域的边界框进行回归,得到M个回归边界框;对M个回归边界框取平均,得到一个边界框,作为...

【专利技术属性】
技术研发人员:黄双萍伍思航李豪杰
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1