The invention discloses a boundary box regression method, system, equipment and media based on three-dimensional convolution neural network. The method includes: constructing a regression device and regressing the target boundary box predicted by the tracking algorithm; generating sample pairs and training the regression device according to the first frame information of a given tracking sequence; and using the regression device to track the target in each subsequent frame. The target boundary box predicted by the tracking algorithm is regressed. When the input of the timing dimension of the three-dimensional convolution neural network is set to N frame, the tracking target image of the first N frame is used as the input of the three-dimensional convolution neural network. Then, according to the information of the first frame, sample pairs are generated to train the regressor adaptively. For the first time, the boundary box regression is applied in the field of target tracking algorithm based on three-dimensional convolution neural network, which makes the predicted boundary box more close to the real value after regression and improves the accuracy of tracking effect.
【技术实现步骤摘要】
基于三维卷积神经网络的边界框回归方法、系统、设备及介质
本专利技术涉及一种边界框回归方法,尤其是一种基于三维卷积神经网络的边界框回归方法、系统、计算机设备及存储介质,属于计算机视觉的目标跟踪领域。
技术介绍
视觉目标(单目标)跟踪任务是计算机视觉领域一直以来研究的热点,尤其是近年来科技生产力的高速发展,视频监控、无人机飞行、自动驾驶等等领域有着广泛应用。视觉目标跟踪任务描述的是在给定的视频序列场景下,只提供跟踪目标在第一帧中的位置,然后通过算法预测该目标接下来的位置和大小。边界框回归通常在判别式模型中应用,可以使得原算法预测的边界框更加精确。当前目标跟踪任务中使用到的边界框回归方法大多基于二维卷积神经网络,例如来自韩国的POSTECH这个团队的MDNet算法、美国天普大学的SANet算法等等,其算法主要思想是在上一帧图像跟踪目标的邻域采样多个候选区域,利用二维卷积神经网络提取图像的空间信息,然后计算候选区域属于目标和背景的二分类得分,并取目标得分最高的候选区域,最后对其边界框进行回归,得到更准确的位置和大小。而基于三维卷积神经网络的边界框回归方法目前还没有。
技术实现思路
本专利技术的第一个目的是为了解决上述现有技术的缺陷,提供了一种基于三维卷积神经网络的边界框回归方法,该方法首次将边界框回归应用在基于三维卷积神经网络的目标跟踪算法领域,使预测的边界框经过回归后更接近真实值,提高了跟踪效果的精确性。本专利技术的第二个目的在于提供一种基于三维卷积神经网络的边界框回归系统。本专利技术的第三个目的在于提供一种计算机设备。本专利技术的第四个目的在于提供一种存储介质。本 ...
【技术保护点】
1.基于三维卷积神经网络的边界框回归方法,其特征在于:所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。
【技术特征摘要】
1.基于三维卷积神经网络的边界框回归方法,其特征在于:所述方法包括:构建回归器,对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框;根据给定跟踪序列的第一帧信息,生成样本对并训练回归器;在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归;在设定三维卷积神经网络的时序维度输入量为N的情况下,当跟踪到第N帧时,将前N帧的跟踪目标图像作为三维卷积神经网络的输入,再根据第一帧的信息,生成样本对,对回归器进行适应性调优重训练。2.根据权利要求1所述的边界框回归方法,其特征在于:所述对跟踪算法预测出的目标边界框进行回归,得到更接近真实边界框的目标边界框,具体包括:使用回归器将跟踪算法预测出的目标边界框沿着中心点平移,再对该目标边界框的宽高进行缩放,得到更接近真实边界框的目标边界框。3.根据权利要求1所述的边界框回归方法,其特征在于:所述根据给定跟踪序列的第一帧信息,生成样本对并训练回归器,具体包括:将N个同样的第一帧目标图像作为三维卷积神经网络的输入;在给定跟踪序列的第一帧真实边界框的邻域,均匀采样出多个大小、位置不同的边界框作为跟踪算法预测的目标边界框;通过基于三维卷积神经网络的跟踪算法计算目标边界框所包含图像的特征向量,再计算特征向量对应的理论真实值;将目标边界框所包含图像的特征向量和理论真实值构成一个样本对;将生成的多个样本对作为训练样本训练回归器。4.根据权利要求1所述的边界框回归方法,其特征在于:所述在后续每一帧的目标跟踪过程中,使用回归器对跟踪算法预测的目标边界框进行回归,具体包括:在后续每一帧的目标跟踪过程中,根据跟踪算法预测出的多个目标候选区域,取符合预设条件的M个目标候选区域;分别通过回归器对M个目标候选区域的边界框进行回归,得到M个回归边界框;对M个回归边界框取平均,得到一个边界框,作为...
【专利技术属性】
技术研发人员:黄双萍,伍思航,李豪杰,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。