The invention discloses a pedestrian target tracking method based on depth learning, which combines depth learning with correlation filtering to track the target, and effectively improves the accuracy of tracking on the premise of ensuring real-time tracking. Aiming at the problem of large change of target attitude in tracking process, the deep convolution feature based on pedestrian attributes is applied to tracking; for occlusion problem, the cosine similarity method is used to judge occlusion, in order to effectively avoid the introduction of dirty data caused by occlusion; in order to improve efficiency and solve the problem of using deep convolution feature in relevant filters, bilinear interpolation is proposed. The method not only eliminates the quantization error, but also avoids the repeated extraction of features and greatly improves the efficiency. Aiming at the problem of high-speed target movement, this paper proposes to integrate the preselected box strategy into the tracking algorithm, which can not only search the global image, but also train the preselected box as a strong and negative sample, so as to improve the discriminating ability of the relevant filter.
【技术实现步骤摘要】
一种基于深度学习的行人目标跟踪方法
本专利技术涉及属于计算机视觉领域,更具体地,涉及一种基于深度学习的行人目标跟踪方法。
技术介绍
近来,国内外恐怖事件频繁发生,严重威胁了人民的生命财产安全和健康幸福生活。随着“平安城市”的建设,大量摄像头的搭建,给人们的生命财产安全、幸福高质量的生活带来保障的同时,也带来了视频数据的爆发式的增长,给视频分析处理技术带来了极大的挑战。在视频监控系统产生的大量数据中绝大多数都是与人相关,而且我们所关心的也大都是人的特征、姿态、动作、行为等等,因此与人相关的信息获取就至关重要。行人目标跟踪,就是对视频序列中行人与背景进行区分,获得一个目标在整个视频序列中完整的运动轨迹。这能有效的把视频中的快照进行关联,大量减少分析的快照数量,提高分析处理速度。另外,行人目标跟踪对行人的运动速度、行人动作分析、事件检测都提供了基础。跟踪算法一般来说可以分为生成模型方法和判别模型方法。生成模型方法的大概流程是,根据当前帧的目标区域建立模型,在下一帧中寻找与模型最相似的区域,该区域即为预测的目标位置。这一类方法,在面对跟踪过程中的复杂变化时,其鲁棒性和准确度方面的表现都不尽人意。判别模型方法,又称为tracking-by-detection,与处理其他经典计算机视觉问题的思路一致,即图像特征加机器学习。大体流程是,在提取图像特征后,以真实目标区域为正样本,背景区域为负样本,使用机器学习的方法训练一个分类器,在之后视频帧中,用这个分类器进行预测,查找出最优的区域,并根据预测结果继续对分类器参数进行更新。相关滤波方法(correlationfilter ...
【技术保护点】
1.一种基于深度学习的行人目标跟踪方法,其特征在于,包括以下步骤:(1)对包含行人目标的视频解码获得每一帧视频图像;(2)提取每一帧视频图像的特征信息;(3)根据每一帧视频图像的特征信息,使用区域候选网络RPN生成每一帧视频图像的预选框区域,以粗粒度搜索每一帧视频图像,获取每一帧视频图像中有可能是行人目标的候选区域;(4)在上一帧视频图像行人目标周围产生目标框,将所述目标框与前后关联帧视频图像中有可能是行人目标的候选区域合并,成为细粒度搜索候选集;(5)用双线性插值算法,将每一帧视频图像特征信息对应的特征图进行扩展,使得扩展后的特征图与原始视频图像分辨率相同,去除因量化带来的目标位置预测不准确的问题,在扩展后的特征图上,确定所述细粒度搜索候选集中各个目标框对应位置的特征;(6)使用相关滤波器,对细粒度搜索候选集中的区域计算响应值,响应值最大者即为预测的行人目标位置,同时对相关滤波器进行在线更新。
【技术特征摘要】
1.一种基于深度学习的行人目标跟踪方法,其特征在于,包括以下步骤:(1)对包含行人目标的视频解码获得每一帧视频图像;(2)提取每一帧视频图像的特征信息;(3)根据每一帧视频图像的特征信息,使用区域候选网络RPN生成每一帧视频图像的预选框区域,以粗粒度搜索每一帧视频图像,获取每一帧视频图像中有可能是行人目标的候选区域;(4)在上一帧视频图像行人目标周围产生目标框,将所述目标框与前后关联帧视频图像中有可能是行人目标的候选区域合并,成为细粒度搜索候选集;(5)用双线性插值算法,将每一帧视频图像特征信息对应的特征图进行扩展,使得扩展后的特征图与原始视频图像分辨率相同,去除因量化带来的目标位置预测不准确的问题,在扩展后的特征图上,确定所述细粒度搜索候选集中各个目标框对应位置的特征;(6)使用相关滤波器,对细粒度搜索候选集中的区域计算响应值,响应值最大者即为预测的行人目标位置,同时对相关滤波器进行在线更新。2.根据权利要求1所述的基于深度学习的行人目标跟踪方法,其特征在于,所述步骤(2)具体包括:基于行人属性的特征提取模型进行图像特征的提取,所述行人属性的特征提取模型在CaffeNet的基础上,在第6个全连接层后分裂成多个,分别对应于多个行人属性的标签,每个标签对应于各自的分类损失和验证损失层,该模型的训练过程包括:(21)从N个训练样本中随机选取一个批次的样本进行预处理,所述N个训练样本为N个包含行人图像的图片,用于训练得到行人属性的特征提取模型;(22)以ImageNet预训练的模型进行网络权重参数的初始化,将一个批次的训练样本和标签输入网络进行正向传播,计算网络各层的值,分别计算得到分类损失和验证损失,最终计算得到总体损失;(23)若预定总迭代次数达到或者总体损失小于一定阈值,则训练结束;否则,继续步骤(24);(24)进行反向传播,用链式法则将损失梯度一层层向前进行传播,每一层利用各自的损失梯度,使用梯度下降算法对网络模型参数进行更新;重复步骤(21)至(23)。3.根据权利要求2所述的基于深度学习的行人目标跟踪方法,其特征在于,所述步骤(3)具体包括:在提取图像特征后,将其输入到RPN网络用于预选框的生成,特征提取网络模型与RPN网络模型的联合训练过程包括:(31)对训练样本、真实目标区域和相应的行人ID、属性标签进行...
【专利技术属性】
技术研发人员:凌贺飞,余成跃,李平,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。