一种基于多重网络的单目标跟踪方法技术

技术编号:24172818 阅读:44 留言:0更新日期:2020-05-16 03:32
本发明专利技术提供了一种基于多重网络的单目标跟踪方法,是一种采用深度学习的模型。该方法首先对视频序列的第一帧图像和当前帧图像进行裁剪,得到模板图像和待搜索图像;将模板图像和待搜索图像输入外观子网和语义子网,分别获得模板图像和待搜索图像的低层外观特征和高层语义特征,并进行特征融合,分别得到模板图像和待搜索图像的融合特征图;然后,基于模板图像和待搜索图像的融合特征图,使用相似性判别方法得到最终响应图;最后,根据最终响应图提供的信息获得跟踪结果。本发明专利技术解决了传统单目标跟踪方法无法有效检测到包含相似性背景的待搜索图像中的跟踪目标,以及基于深度学习的特征提取方法由于提取出的低层外观特征存在噪声而导致误检的问题。

A single target tracking method based on multiple networks

【技术实现步骤摘要】
一种基于多重网络的单目标跟踪方法
本专利技术属于图像处理和计算机视觉领域,尤其涉及一种基于多重网络的单目标跟踪方法。
技术介绍
单目标跟踪是信息融合方法的一个重要组成部分,被广泛应用于视频监控、虚拟现实、人机交互、无人驾驶等诸多领域。单目标跟踪的本质是通过滤波器对单个动态目标的连续运动状态进行估计。单目标跟踪的大致框架是首先通过对第一帧输入进行特征提取对待跟踪目标的特征进行初始化,构建目标模型,然后对当前帧进行特征提取,并与第一帧中跟踪目标的特征进行相似性判断,最后输出跟踪目标在当前帧中的位置估计。单目标跟踪一般分为两大类方法:基于生成式模型的单目标跟踪方法和基于判别式模型的单目标跟踪方法。基于生成式模型的单目标跟踪方法通过建立目标模型将现实世界中的目标基于计算机视觉中的目标表示方法进行描述,在新的图像帧中搜索与目标外观模型最相似的区域,它着眼于对目标本身的刻画,忽略背景信息,在目标自身变化剧烈或者被遮挡时容易产生跟踪漂移;基于判别式模型的单目标跟踪方法对目标提取具有判别性的特征,通过深度学习和相关滤波方法训练分类器来区分目标和背景,很本文档来自技高网...

【技术保护点】
1.一种基于多重网络的单目标跟踪方法,其特征在于,包括以下步骤:/n步骤1)处理视频第一帧和当前帧得到模板图像和待搜索图像;/n步骤2)将模板图像和待搜索图像一同输入外观子网和语义子网,分别提取低层外观特征和高层语义特征;/n步骤3)将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图,同时将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图;/n步骤4)对模板图像的融合特征图和待搜索图像的融合特征图,采用相似性判别方法得到模板图像在待搜索图像上的最终响应图;/n步骤5)将最终响应图恢复成原图大小,根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位...

【技术特征摘要】
1.一种基于多重网络的单目标跟踪方法,其特征在于,包括以下步骤:
步骤1)处理视频第一帧和当前帧得到模板图像和待搜索图像;
步骤2)将模板图像和待搜索图像一同输入外观子网和语义子网,分别提取低层外观特征和高层语义特征;
步骤3)将模板图像的低层外观特征和高层语义特征进行融合得到模板图像的融合特征图,同时将待搜索图像的低层外观特征和高层语义特征进行融合得到待搜索图像的融合特征图;
步骤4)对模板图像的融合特征图和待搜索图像的融合特征图,采用相似性判别方法得到模板图像在待搜索图像上的最终响应图;
步骤5)将最终响应图恢复成原图大小,根据最终响应图提供的信息在当前帧中确定跟踪目标的中心点位置以及矩形框大小,进而得到跟踪结果。


2.如权利要求1中所述的处理视频第一帧和当前帧得到模板图像和待搜索图像,其特征在于,步骤1)具体步骤为:
1.1)获得模板图像:本方法中不存在对模板图像的在线更新,第一帧图像只需要进行一次处理即可;将第一帧图像中的跟踪目标根据标注好的矩形框的中心点坐标及宽和高裁剪出需要的大小,得到模板图像;
首先默认跟踪目标的中心点在第一帧图像的中心,第一帧图像的宽和高为w和h,因此在以图像左上角为原点的坐标轴中,跟踪目标中心点的坐标为:(w/2,h/2);然后裁剪出包含跟踪目标的大小为127×127的区域;最后,新建一个大小为127×127的三通道RGB图像,并将从第一帧图像中裁剪出的区域内的所有像素值复制到新建的三通道RGB图像,即获得模板图像;
1.2)获得待搜索图像:本方法采用多尺度方法应对不同尺度下的目标跟踪;
首先采用预先设置的尺度变化系数σ=1,并设置尺度基数sb=1.0375,得到三种固定尺度(sb-σ,sb0,sbσ);根据三种固定尺度对当前帧图像进行尺度变换,得到三幅不同尺度的当前帧图像;并以前一帧跟踪目标为中心,对三幅不同尺度的当前帧图像进行裁剪或者填充,分别得到三幅大小为255×255的待搜索图像,每幅待搜索图像具有不同尺度大小的跟踪目标。


3.如权利要求1中所述的将模板图像和待搜索图像一同输入到外观子网和语义子网中,分别提取低层外观特征和高层语义特征,其特征在于,步骤2)具体步骤为:
2.1)外观子网包括一个卷积神经网络和一个注意力模块,卷积神经网络包括5个卷积层和2个池化层,其中2个池化层分别在第一个卷积层和第二个卷积层的后面,同时注意力模块加在第一个卷积层和对应池化层的中间;
首先,将...

【专利技术属性】
技术研发人员:付利华王宇鹏杜宇斌陈人杰
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1