一种基于深度特征融合卷积神经网络的综合式目标跟踪方法技术

技术编号:20945692 阅读:35 留言:0更新日期:2019-04-24 02:53
本发明专利技术公开了一种基于通道特征融合卷积神经网络的综合式目标跟踪方法,属于计算机视觉领域,一方面,对于网络结构加入一个新的通道特征加权卷积层,并构造一种适合于目标跟踪的卷积神经网络用于提取深度特征作为外观表示。另一方面,跟踪之前构造的长期分类预测子网络模块和回归预测子网络模块,利用初始目标的信息采集样本训练长期分类预测子网络模块和回归预测子网络模块,跟踪过程中利用长期分类预测子网络模块对所有候选块进行分类,根据其属于前景类的概率结果自适应的结合长短期分类预测子网络模块、回归预测子网络模块和多模板匹配模块进行跟踪。本发明专利技术方法鲁棒性强、准确度高。

A Comprehensive Target Tracking Method Based on Deep Feature Fusion Convolutional Neural Network

The invention discloses a comprehensive target tracking method based on channel feature fusion convolution neural network, which belongs to the field of computer vision. On the one hand, a new channel feature weighted convolution layer is added to the network structure, and a convolution neural network suitable for target tracking is constructed to extract depth features as appearance representation. On the other hand, the long-term classification prediction sub-network module and regression prediction sub-network module constructed before tracking are used to train the long-term classification prediction sub-network module and regression prediction sub-network module by collecting samples of the initial target information. In the tracking process, all candidate blocks are classified by the long-term classification prediction sub-network module, and are adapted according to their probability results belonging to the foreground class. It combines the long-term and short-term classification prediction sub-network module, regression prediction sub-network module and multi-template matching module to track. The method of the invention has strong robustness and high accuracy.

【技术实现步骤摘要】
一种基于深度特征融合卷积神经网络的综合式目标跟踪方法
本专利技术的内容涉及到计算机视觉领域,具体的应用是一种基于深度特征融合卷积神经网络的综合式目标跟踪方法。使用该专利技术中的方法能够使视频目标跟踪在复杂场景中的成功率和准确度得到有效的提高。
技术介绍
在现代社会中,社会信息化的发展速度越来越快,在人们的工作和生活中存在着大量的视频采集设备,这些设备记录和保存了大量的视频数据。一方面,对于这些数据的分析和处理依靠人工的方式将会逐渐变得异常困难,甚至可以说是不可行的。然而另一方面,针对这些视频数据,在实际的应用当中却存在着来自许多类不同应用的需求,在这其中主要是包括视频的安全监控、智能交通的管理、智能的人机交互系统、目标运动的分析以及机动交通工具的自动驾驶等,视频目标跟踪技术在视频分析、视频理解以及视频交互的各项具体应用中有着极为重要的作用,其是此类高阶的视频任务进行时一个需要依赖的基础技术。视频目标跟踪问题在计算机视觉领域当中是一个非常活跃的研究课题,但同时由于场景中可能存在的光照变化、尺度变化、姿态变化、目标遮挡等一些列的干扰因素,因此又十分具有挑战性。视频目标跟踪是指利用视频采集设备获取视频数据后,从视频中选定一个或者是多个物体作为跟踪目标,给出目标区域初始的中心位置和尺度大小信息,通过设计有效的目标跟踪方法对后续的视频帧中目标的中心位置和尺度大小信息进行预测,从而完成对目标的持续跟踪。尽管在人们的工作和生活中存在着大量的应用需要,需要基于视频的目标跟踪技术作为基础支撑,使用计算机视觉技术自动完成目标跟踪,能够使人们从大量繁琐低效的任务中解放出来,并为人们的分析和决策提供重要的依据。但是,在复杂的现实场景之中经常会出现各种不同的干扰因素,导致基于视频进行目标跟踪变得十分困难。因此,需要开发一种新型的基于视频进行目标跟踪的方法或者系统,以实现鲁棒性强、准确度高的目标跟踪。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种基于深度特征融合卷积神经网络的综合式目标跟踪方法,其目的在于,通过提取目标深度特征,构造多个不同的处理方式,充分结合生成式模型、判别式模型、长期跟踪和短期跟踪的优点,实现鲁棒性强准确度高的目标跟踪,从而进一步为视频分析、视频理解、视频交互提供良好的基础,进而为视频安全监控、智能交通控制、目标运动分析、人机交互系统以及自动驾驶为代表的视觉应用提供良好的技术支撑。为实现上述目的,本专利技术提供了一种基于深度特征融合卷积神经网络的综合式目标跟踪方法,也被称为复杂场景的单视觉目标跟踪方法,该方法包括下述步骤:(1)修改VGG-M网络模型并加入通道特征融合的卷积层,将网络中的卷积部分作为共享的深度特征提取子网络,并将网络的剩下部分作为序列特定的深度特征分类子网络,将两者连接起来构造一个通道特征融合的卷积神经网络模型;本申请的方法中,修改后的网络减少了VGG-M网络的卷积层和全连接层的层数,最后的深度特征分类子网络只保留一个全连接层。现有的网络模型在最后的卷积层输出的特征通道数量较多,而每个特征通道的数据其实是稀疏的,本申请的方法在全连接层之前加入一个通道特征融合卷积层,以更低的数据维度包含基本同等量的特征信息,有利于加快生成式模型中相似性计算模块的速度。未加入这个通道特征融合卷积层之前,卷积层输出512种通道特征,加入后得到的是32种融合的通道特征。(2)收集携带有目标位置和尺度信息的视频序列,对其中的每个视频序列根据标注提供的目标信息分别采集前景类和背景类的样本构成网络模型的训练集;其中,部分学者和研究机构提供了公开的视频目标跟踪数据集,选择其中的几个包含不同挑战因素的数据集,包括VOT-2013、VOT-2014和VOT-2015,将其中重复的视频去掉。对于这些被选中的每一个视频序列,从中随机地选择一部分视频帧图像,然后对于各个序列被选中的每一帧,根据标注的目标位置和尺度信息,利用目标中心点的坐标参数和尺度高宽参数的高斯函数采样,从而生成大量的样本图像子块。截取这些子块区域的图像并对其进行归一化的图像处理,按照这些子块区域与真实的目标块区域重叠的比率关系定义前景类和背景类,将它们分成对应的两类并按照一定的比例对这两类样本进行保留,从而构成网络模型的训练样本集合。(3)将训练样本按照序列对应的方式组成批次,逐个序列的对网络模型进行循环迭代训练,直到完成设定的循环次数或者达到预设的精度阈值;受深度神经网络处理速度的影响,在网络模型训练过程中采用样本分批的方式将其组织起来。网络的训练采用序列循环的方式迭代训练,具体的是指每一次循环中对共享的特征提取子网络和序列特定的特征分类子网络逐一使用该序列特定的特征分类子网络对应的序列批次样本。可以先设置一定大小的循环次数观察网络分类性能的收敛情况,当不满足收敛要求时增大循环次数的阈值,反之,为避免过深度网络的过拟合问题,应当适当的减小迭代次数。(4)对于新的视频序列,重新构造一个与之相对应的序列特定的特征分类子网络模块和一个序列特定的回归预测子网络模块,将它们与共享的深度特征提取子网络相连接,从而构成新的序列目标跟踪网络模型;具体的,由于所使用的训练样本集合当中的视频序列中存在着光照变化、姿态变化、目标旋转、尺度变化、运动模糊以及目标遮挡等各种干扰因素。因此,当利用这些样本对网络模型进行充分的迭代训练之后,就能够依靠共享的特征提取子网络提取鲁棒性强的深度融合特征。在每个视频序列当中的被跟踪目标各不相同,在某个序列中被跟踪的目标在另外的一个视频中就可能是背景甚至是与目标相似的干扰物体。因此,针对新视频序列的目标跟踪,需要构造一个全新的序列特定的深度特征分类子网络,并将其与训练好的共享的特征提取子网络相连接以构成跟踪过程中所使用的分类预测网络模型。此外,本专利技术方法中还利用了一个回归预测网络模块,该模块同样用于对新的视频序列构造一个序列特定的深度特征回归预测子网络模块。(5)利用新的序列首帧中的目标的位置和尺度的信息采集初始的前景类样本和背景类样本,并用这些样本对新构造的特征分类子网络进行训练,对于回归预测子网络模块则使用其中的正样本进行训练,利用共享的深度特征提取子网络对初始目标进行深度特征的提取,并将提取的特征作为目标初始的特征模板;上一步构造了新视频序列跟踪时需要用的特征分类预测子网络模块和特征回归预测子网络模块,需要根据新序列初始目标的信息在初始帧中采集前景类和背景类的样本,使用全部样本训练分类子网络得到长期分类预测子网络模块,使用其中的前景类样本训练回归预测子网络模块。将目标初始区域的最末端卷积层输出作为特征处理,并保存为初始的目标特征模板。(6)目标跟踪过程中使用到多种不同的目标特征模板,其中初始的历史目标特征模板的集合设置为空,上一帧的目标特征模板则设置为初始的目标特征模板;本专利技术方法是一种综合式的目标跟踪方法,其中用到一个多模板匹配策略的生成式模块。在初始帧和当前帧的上一帧中分别包含了目标初始以及上一次跟踪得到的信息,此外在之前的目标跟踪过程中,其外观特征可能存在着一些后续跟踪中可能会重复出现的明显变化的外观特征信息。根据这以上信息分别构造初始目标特征模板、上一帧目标特征模板以及一个历史目标特征模板,在进行目标跟踪之前将历史特征模板本文档来自技高网
...

【技术保护点】
1.一种基于深度特征融合卷积神经网络的综合式目标跟踪方法,其特征在于,其包括下述步骤:(1)修改VGG‑M网络模型并加入通道特征融合的卷积层,将卷积部分作为共享的深度特征提取子网络,并将剩下部分作为序列特定的深度特征分类子网络,连接两者构造一个通道特征融合的卷积神经网络模型;(2)收集携带有目标位置和尺度信息的视频序列,对其中的每个视频序列根据标注提供的目标信息分别采集前景类和背景类的样本构成卷积神经网络模型的训练集;(3)将训练样本按照序列对应的方式组成批次,逐个序列的对卷积神经网络模型进行循环迭代训练,直到完成设定的循环次数或者达到预设的精度阈值;(4)对于新的视频序列,重新构造一个与之相对应的序列特定的特征分类子网络模块和一个序列特定的回归预测子网络模块,将该两个网络模块与共享的深度特征提取子网络相连接,从而构成新的序列目标跟踪网络模型;(5)利用新的视频序列首帧中的目标的位置和尺度的信息采集初始的前景类样本和背景类样本,并用该两种样本对新构造的序列特定的特征分类子网络模块进行训练,对于序列特定的回归预测子网络模块则使用的正样本进行训练,利用共享的深度特征提取子网络对初始目标进行深度特征的提取,并将提取的特征作为目标初始的特征模板,将目标初始区域的最末端卷积层输出作为特征处理,并将处理后的结果保存为初始的目标特征模板;(6)目标跟踪过程中使用到多种不同的目标特征模板,其中初始的历史目标特征模板的集合设置为空,上一帧的目标特征模板则设置为初始的目标特征模板;(7)利用最新的目标位置和尺度信息生成目标的候选区域,对目标的候选区域使用共享的深度特征提取子网络提取深度特征并分别计算深度特征属于前景类和背景类的分类概率;(8)根据所有候选区域的深度特征属于前景类概率结果判断目标外观的变化程度,将这些概率值与一个设定的阈值进行比较,将比较的结果作为一个条件,即是否所有候选区域属于前景类的概率值都大于该设定的阈值;(9)所有候选区域属于前景类的概率值都大于设定的阈值时,表明目标的外观变化程度不大,被长期分类预测子网络模块正确识别的概率较高,此时利用长期分类预测子网络模块和回归预测网络模块相结合进行分析计算综合的预测值;反之,则表明目标的外观发生了较大的变化,此时则新构造一个短期分类预测子网络模块,将长、短期分类预测子网络模块与多模板匹配模块相结合进行分析计算综合的预测值;(10)将预测值最高的候选块作为当前帧的目标跟踪结果,并将上一帧的目标特征模板更新为新的目标块特征,根据新的目标位置和尺度信息采集样本,将该样本加入到用于更新短期分类预测子网络模块的样本集合中,并分析所有候选区域属于前景类的概率,从而确定是否将该候选区域加入到长期分类预测子网络模块的样本集合中,以及是否生成新的历史目标特征模板和更新网络;结合计算得到所有候选区域的综合预测值之后,选择其中预测值最大的区域作为当前帧的目标,然后将多模板策略中用到的上一帧目标特征替换为新目标区域的深度特征,并根据新的目标位置和尺度信息采集样本,将样本加入用于更新短期分类预测子网络模块的样本集合中;利用长期分类预测子网络模块对所有候选区域的特征进行分类,得到的结果较为客观地反应出目标外观变化程度的大小,如果所有候选区域属于前景类概率都不高,则判定当前的跟踪结果可信度也不高,这种情况表明目标的外观特征发生了较为明显的变化,此时利用跟踪过程中收集的可信度较高的样本集合中的样本对长期分类预测子网络模块进行更新,同时将新目标区域的深度特征添加到历史目标特征模板集合中;反之,将采集的样本加入到长期分类预测子网络模块的样本集合中。(11)判断跟踪是否结束,如果没有结束,则跳转至步骤(7),依次循环执行步骤(7)至步骤(11)。...

【技术特征摘要】
1.一种基于深度特征融合卷积神经网络的综合式目标跟踪方法,其特征在于,其包括下述步骤:(1)修改VGG-M网络模型并加入通道特征融合的卷积层,将卷积部分作为共享的深度特征提取子网络,并将剩下部分作为序列特定的深度特征分类子网络,连接两者构造一个通道特征融合的卷积神经网络模型;(2)收集携带有目标位置和尺度信息的视频序列,对其中的每个视频序列根据标注提供的目标信息分别采集前景类和背景类的样本构成卷积神经网络模型的训练集;(3)将训练样本按照序列对应的方式组成批次,逐个序列的对卷积神经网络模型进行循环迭代训练,直到完成设定的循环次数或者达到预设的精度阈值;(4)对于新的视频序列,重新构造一个与之相对应的序列特定的特征分类子网络模块和一个序列特定的回归预测子网络模块,将该两个网络模块与共享的深度特征提取子网络相连接,从而构成新的序列目标跟踪网络模型;(5)利用新的视频序列首帧中的目标的位置和尺度的信息采集初始的前景类样本和背景类样本,并用该两种样本对新构造的序列特定的特征分类子网络模块进行训练,对于序列特定的回归预测子网络模块则使用的正样本进行训练,利用共享的深度特征提取子网络对初始目标进行深度特征的提取,并将提取的特征作为目标初始的特征模板,将目标初始区域的最末端卷积层输出作为特征处理,并将处理后的结果保存为初始的目标特征模板;(6)目标跟踪过程中使用到多种不同的目标特征模板,其中初始的历史目标特征模板的集合设置为空,上一帧的目标特征模板则设置为初始的目标特征模板;(7)利用最新的目标位置和尺度信息生成目标的候选区域,对目标的候选区域使用共享的深度特征提取子网络提取深度特征并分别计算深度特征属于前景类和背景类的分类概率;(8)根据所有候选区域的深度特征属于前景类概率结果判断目标外观的变化程度,将这些概率值与一个设定的阈值进行比较,将比较的结果作为一个条件,即是否所有候选区域属于前景类的概率值都大于该设定的阈值;(9)所有候选区域属于前景类的概率值都大于设定的阈值时,表明目标的外观变化程度不大,被长期分类预测子网络模块正确识别的概率较高,此时利用长期分类预测子网络模块和回归预测网络模块相结合进行分析计算综合的预测值;反之,则表明目标的外观发生了较大的变化,此时则新构造一个短期分类预测子网络模块,将长、短期分类预测子网络模块与多模板匹配模块相结合进行分析计算综合的预测值;(10)将预测值最高的候选块作为当前帧的目标跟踪结果,并将上一帧的目标特征模板更新为新的目标块特征,根据新的目标位置和尺度信息采集样本,将该样本加入到用于更新短期分类预测子网络模块的样本集合中,并分析所有候选区域属于前景类的概率,从而确定是否将该候选区域加入到长期分类预测子网络模块的样本集合中,以及是否生成新的历史目标特征模板和更新网络;结合计算得到所有候选区域的综合预...

【专利技术属性】
技术研发人员:王天江冯平赵志强罗逸豪冯琪
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1