一种基于语义信息和场景信息的多目标跟踪方法技术

技术编号:20869783 阅读:46 留言:0更新日期:2019-04-17 10:00
本发明专利技术公开了一种基于语义信息和场景信息的多目标跟踪方法,包括:分别预测场景中各个跟踪目标在当前帧中的位置,利用检测模型对所预测的位置进行修正并获得其语义得分;将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合语义得分和相似度,从而得到目标框的跟踪得分;根据目标框的跟踪得分更新场景网格的场景模型,根据场景模型计算目标框的场景置信度,并根据场景置信度更新目标框的跟踪得分;利用检测模型获得当前帧的检测结果,将目标框与检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果。本发明专利技术能够提高多目标跟踪的鲁棒性和准确性。

【技术实现步骤摘要】
一种基于语义信息和场景信息的多目标跟踪方法
本专利技术属于计算机视觉
,更具体地,涉及一种基于语义信息和场景信息的多目标跟踪方法。
技术介绍
多目标跟踪是计算机视觉领域的一项重要任务,在自动驾驶、机器人导航以及运动分析等方面有重要的应用价值。多目标跟踪的目标是估计场景中所有跟踪目标在每一帧图像中的位置并且保持同一目标的id不变,以生成目标轨迹。已有的多目标跟踪算法可分为两类:离线算法和在线算法。在离线算法中,多目标跟踪任务通常被描述为一个最优化问题,通过建立简化模型如网络流模型、k部图模型或图割模型,利用优化算法求取最优解,在优化过程中,为得到某一帧的跟踪结果,需要使用该帧之后的时间步信息,因此这类方法不适用于实时在线跟踪。而在线算法在解决当前帧跟踪问题时,仅使用当前帧以及历史信息,应用范围更广。在线多目标方法中,会同时使用到检测算法和单目标跟踪算法,目前高精度的检测算法均使用深度学习,典型的检测网络有二阶段检测网络Faster-RCNN和RFCN,以及一阶段检测网络YOLO和SSD,其中Faster-RCNN能够达到最高的检测精度;目前主流的单目标跟踪算法有相关滤波和深度学习两个分支,深度学习类算法速度慢,精度高,而相关滤波类算法有效率高的优势,同时也能达到较高的精度。然而,现有的在线多目标跟踪算法只是机械地组合检测算法和单目标跟踪算法,实际上检测和跟踪是单独处理的,这样处理会带来两个问题:(1)检测过程仅针对单幅图像,没有利用视频的序列信息,容易出现轨迹不连续现象;(2)跟踪过程没有利用检测时使用的语义信息,容易发生跟踪漂移。由于存在这两个问题,现有的多目标跟踪算法无法克服频繁遮挡、场景复杂和相机运动等问题。
技术实现思路
针对现有技术的缺陷和改进需求,本专利技术提供了一种基于语义信息和场景信息的多目标跟踪方法,其目的在于,通过融合序列信息、语义信息和场景信息,提高多目标跟踪的鲁棒性。为实现上述目的,按照本专利技术的一个方面,提供了一种基于语义信息和场景信息的多目标跟踪方法,包括如下步骤:(1)分别预测场景中各个跟踪目标在当前帧中的位置,利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分;(2)将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合语义得分和相似度,从而得到目标框的跟踪得分;(3)根据目标框的跟踪得分更新场景网格的场景模型,根据场景模型计算目标框的场景置信度,并根据场景置信度更新目标框的跟踪得分;(4)利用检测模型获得当前帧的检测结果,将目标框与检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果;其中,检测模型以VGG16的前12层为基础网络的Faster-RCNN,检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分;语义得分用于表示对应位置处的目标为跟踪目标的可能性,历史轨迹为跟踪目标在起始帧至上一帧中的位置序列,场景网格为由场景图像预先划分所得的网格,场景模型用于计算目标框的场景置信度,场景置信度用于表示跟踪目标出现在场景网格中的可能性。进一步地,步骤(1)包括:若当前帧的上一帧为视频序列中的第一帧,则以第一帧的检测结果所确定的位置为中心确定矩形搜索区域;否则,以上一帧的跟踪结果所确定的位置为中心确定矩形搜索区域;利用基于HOG特征和颜色直方图特征的相关滤波算法,根据所确定的矩形搜索区域预测场景中各个跟踪目标在当前帧中的位置;利用检测模型的stage2结构对所预测的位置进行边框回归(boundingbox)操作,从而对所预测的位置进行修正并获得其语义得分。利用检测模型对预测位置进行修正并获得相应的语义得分,能够将检测过程的语义信息和跟踪过程中的序列信息有机融合在一起,从而降低跟踪漂移的可能性并提升检测的召回率。进一步地,步骤(2)包括:对于任意一个目标框B,提取其表观特征向量xt,并获得对应的跟踪目标T在第a帧至第t-1帧的轨迹的表观特征向量xa:t-1;计算表观特征向量xt和表观特征向量xa:t-1之间的余弦相似度Pmatch,并由此计算目标框B的跟踪得分为:St=Prec*Pmatch;更新跟踪目标T在第a帧至第t帧的轨迹的表观特征向量为:xa:t=(1-ω)xa:t-1+ωxt;其中,a为起始帧编号,t为当前帧编号,Prec为目标框B的语义得分,ω为加权系数。在计算目标框的跟踪得分时,同时利用了语义得分和与历史轨迹之间的相似度,能够进一步实现语义信息和序列信息的有机融合。更进一步地,步骤(2)还包括:根据跟踪得分St调整加权系数ω的取值,所采用的公式为:其中,Sa:t-1为跟踪目标T在第a帧至第t-1帧的跟踪得分的算术平均值。在决定轨迹状态时充分考虑历史信息,即利用跟踪目标在历史轨迹中的踪得分的算术平均值更新加权系数,能够让跟踪更稳定。进一步地,场景置模型的表达式为:其中,Ppers表示目标框的场景置信度得分,h表示目标框高度,μ和σ分别为目标框高度的均值和方差。使用类高斯模型作为网格的场景模型,能够根据视角情况、目标位置和高度判断目标合理性。进一步地,步骤(3)中,根据目标框的跟踪得分更新场景网格的场景模型,包括:对于任意一个场景网格G,获得当前帧中属于场景网格G的目标框总数n以及起始帧至上一帧中属于网格G的目标框总数N;根据目标框总数n和目标框总数N更新均值μ为:根据目标框总数n和目标框高度分别更新辅助变量α和β为:根据辅助变量α和β更新方差σ为:其中,属于场景网格G的目标框的底部中心位于场景网格G且跟踪得分大于预设的第一阈值,μ'、α'和β'分别表示均值μ、辅助变量α和辅助变量β更新前的取值,hi表示当前帧中属于场景网格G的第i个目标框的高度。仅使用置信度较高(高于第一阈值)的目标来更新场景模型,能够降低由于误检引入的误差;并且通过动态更新,能够以较小的计算代价随时对模型进行调整,从而提高模型的准确度。更进一步地,步骤(3)中,根据场景置信度得分更新目标框的跟踪得分的方式为:对于任意一个目标框B,若其跟踪得分低于预设的高分阈值且高于预设的低分阈值,则获得其底部中心所在场景网格的场景模型M,并根据场景模型M计算目标框B的场景置信度利用置信度得分更新目标框B在当前帧的跟踪得分为:在多目标跟踪过程中,若目标框的跟踪得分高于高分阈值,则可直接认为是可靠跟踪;若目标框的跟踪得分低于低分阈值,则可直接认为是不可靠跟踪;若目标框的跟踪得分在两阈值之间的跟,则是待定的,所以用场景信息来辅助判断对应跟踪目标的可靠程度;因此,对于跟踪得分位于高分阈值和低分阈值之间的目标框,利用场景模型更新其跟踪得分,能够提高其跟踪得分的准确度;基于上述更新跟踪得分的方法,能够让不符合场景模型的目标框跟踪得分降低,同时符合场景模型的目标框跟踪得分升高,从而从待定目标里面区分可靠跟踪和不可靠跟踪;若目标框B的跟踪得分高于高分阈值或低于低分阈值,则其跟踪得分St保持不变;其中,η为平滑度因子,St'为跟踪得分St更新前的取值。基于场景信息更新目标框的跟踪得分,能够同时实现语义信息、序列信息以及场景信息的融合,能够提高跟踪的准确性,有效减少虚检和漏检的情况。更进一步地,步骤(4)中,将目标框与检测结果进行本文档来自技高网
...

【技术保护点】
1.一种基于语义信息和场景信息的多目标跟踪方法,其特征在于,包括如下步骤:(1)分别预测场景中各个跟踪目标在当前帧中的位置,利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分;(2)将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合所述语义得分和所述相似度,从而得到目标框的跟踪得分;(3)根据目标框的跟踪得分更新场景网格的场景模型,根据所述场景模型计算目标框的场景置信度,并根据所述场景置信度更新目标框的跟踪得分;(4)利用所述检测模型获得当前帧的检测结果,将目标框与所述检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果;其中,所述检测模型是以VGG16的前12层为基础网络的Faster‑RCNN,所述检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分;所述语义得分用于表示对应位置处的目标为跟踪目标的可能性,所述历史轨迹为跟踪目标在起始帧至上一帧中的位置序列,所述场景网格为由场景图像预先划分所得的网格,所述场景模型用于计算目标框的场景置信度,所述场景置信度用于表示跟踪目标出现在场景网格中的可能性。...

【技术特征摘要】
1.一种基于语义信息和场景信息的多目标跟踪方法,其特征在于,包括如下步骤:(1)分别预测场景中各个跟踪目标在当前帧中的位置,利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分;(2)将修正后的位置作为目标框,获得目标框与对应跟踪目标的历史轨迹之间的相似度,并融合所述语义得分和所述相似度,从而得到目标框的跟踪得分;(3)根据目标框的跟踪得分更新场景网格的场景模型,根据所述场景模型计算目标框的场景置信度,并根据所述场景置信度更新目标框的跟踪得分;(4)利用所述检测模型获得当前帧的检测结果,将目标框与所述检测结果进行匹配,并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标,从而得到当前帧的跟踪结果;其中,所述检测模型是以VGG16的前12层为基础网络的Faster-RCNN,所述检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分;所述语义得分用于表示对应位置处的目标为跟踪目标的可能性,所述历史轨迹为跟踪目标在起始帧至上一帧中的位置序列,所述场景网格为由场景图像预先划分所得的网格,所述场景模型用于计算目标框的场景置信度,所述场景置信度用于表示跟踪目标出现在场景网格中的可能性。2.如权利要求1所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(1)包括:若当前帧的上一帧为视频序列中的第一帧,则以第一帧的检测结果所确定的位置为中心确定矩形搜索区域;否则,以上一帧的跟踪结果所确定的位置为中心确定矩形搜索区域;利用基于HOG特征和颜色直方图特征的相关滤波算法,根据所确定的矩形搜索区域预测场景中各个跟踪目标在当前帧中的位置;利用所述检测模型的stage2结构对所预测的位置进行边框回归操作,从而对所预测的位置进行修正并获得其语义得分。3.如权利要求1或2所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(2)包括:对于任意一个目标框B,提取其表观特征向量xt,并获得对应的跟踪目标T在第a帧至第t-1帧的轨迹的表观特征向量xa:t-1;计算所述表观特征向量xt和所述表观特征向量xa:t-1之间的余弦相似度Pmatch,并由此计算所述目标框B的跟踪得分为:St=Prec*Pmatch;更新所述跟踪目标T在第a帧至第t帧的轨迹的表观特征向量为:xa:t=(1-ω)xa:t-1+ωxt;其中,a为起始帧编号,t为当前帧编号,Prec为所述目标框B的语义得分,ω为加权系数。4.如权利要求3所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(2)还包括:根据所述跟踪得分St调整所述加权系数ω的取值,所采用的公式为:其中,Sa:t-1为所述跟踪目标T在第a帧至第t-1帧的跟踪得分的算术平均值。5.如权利要求1或2所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述场景置模型的表达式为:其中,Ppers表示目标框的场景置信度,h表示目标框高度,μ和σ分别为目标框高度的均值和方差。6.如权利要求5所述的基于语义信息和场景信息的多目标跟踪方法,其特征在于,所述步骤(3)中,根据目标框的跟踪得分更新场景网格的场景模型,包括:对于任意一个场景网格G,获得当前帧中属于所述场景网格G的目标框总数n以及起始帧至...

【专利技术属性】
技术研发人员:桑农皮智雄秦淮高常鑫
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1