一种基于语义信息和场景信息的多目标跟踪方法技术

技术编号：20869783 阅读：46 留言：0更新日期：2019-04-17 10:00

本发明专利技术公开了一种基于语义信息和场景信息的多目标跟踪方法，包括：分别预测场景中各个跟踪目标在当前帧中的位置，利用检测模型对所预测的位置进行修正并获得其语义得分；将修正后的位置作为目标框，获得目标框与对应跟踪目标的历史轨迹之间的相似度，并融合语义得分和相似度，从而得到目标框的跟踪得分；根据目标框的跟踪得分更新场景网格的场景模型，根据场景模型计算目标框的场景置信度，并根据场景置信度更新目标框的跟踪得分；利用检测模型获得当前帧的检测结果，将目标框与检测结果进行匹配，并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标，从而得到当前帧的跟踪结果。本发明专利技术能够提高多目标跟踪的鲁棒性和准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义信息和场景信息的多目标跟踪方法
本专利技术属于计算机视觉
，更具体地，涉及一种基于语义信息和场景信息的多目标跟踪方法。
技术介绍
多目标跟踪是计算机视觉领域的一项重要任务，在自动驾驶、机器人导航以及运动分析等方面有重要的应用价值。多目标跟踪的目标是估计场景中所有跟踪目标在每一帧图像中的位置并且保持同一目标的id不变，以生成目标轨迹。已有的多目标跟踪算法可分为两类：离线算法和在线算法。在离线算法中，多目标跟踪任务通常被描述为一个最优化问题，通过建立简化模型如网络流模型、k部图模型或图割模型，利用优化算法求取最优解，在优化过程中，为得到某一帧的跟踪结果，需要使用该帧之后的时间步信息，因此这类方法不适用于实时在线跟踪。而在线算法在解决当前帧跟踪问题时，仅使用当前帧以及历史信息，应用范围更广。在线多目标方法中，会同时使用到检测算法和单目标跟踪算法，目前高精度的检测算法均使用深度学习，典型的检测网络有二阶段检测网络Faster-RCNN和RFCN，以及一阶段检测网络YOLO和SSD，其中Faster-RCNN能够达到最高的检测精度；目前主流的单目标跟踪算法有相关滤波和深度学习两个分支，深度学习类算法速度慢，精度高，而相关滤波类算法有效率高的优势，同时也能达到较高的精度。然而，现有的在线多目标跟踪算法只是机械地组合检测算法和单目标跟踪算法，实际上检测和跟踪是单独处理的，这样处理会带来两个问题：(1)检测过程仅针对单幅图像，没有利用视频的序列信息，容易出现轨迹不连续现象；(2)跟踪过程没有利用检测时使用的语义信息，容易发生跟踪漂移。由于存在这两个问题，...

【技术保护点】
1.一种基于语义信息和场景信息的多目标跟踪方法，其特征在于，包括如下步骤：(1)分别预测场景中各个跟踪目标在当前帧中的位置，利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分；(2)将修正后的位置作为目标框，获得目标框与对应跟踪目标的历史轨迹之间的相似度，并融合所述语义得分和所述相似度，从而得到目标框的跟踪得分；(3)根据目标框的跟踪得分更新场景网格的场景模型，根据所述场景模型计算目标框的场景置信度，并根据所述场景置信度更新目标框的跟踪得分；(4)利用所述检测模型获得当前帧的检测结果，将目标框与所述检测结果进行匹配，并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标，从而得到当前帧的跟踪结果；其中，所述检测模型是以VGG16的前12层为基础网络的Faster‑RCNN，所述检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分；所述语义得分用于表示对应位置处的目标为跟踪目标的可能性，所述历史轨迹为跟踪目标在起始帧至上一帧中的位置序列，所述场景网格为由场景图像预先划分所得的网格，所述场景模型用于计算目标框的场景置信度，所述场景置信度用于表示跟踪目标出现在场景网格中的可能性。...

【技术特征摘要】
1.一种基于语义信息和场景信息的多目标跟踪方法，其特征在于，包括如下步骤：(1)分别预测场景中各个跟踪目标在当前帧中的位置，利用已训练好的检测模型对所预测的位置进行修正并获得其语义得分；(2)将修正后的位置作为目标框，获得目标框与对应跟踪目标的历史轨迹之间的相似度，并融合所述语义得分和所述相似度，从而得到目标框的跟踪得分；(3)根据目标框的跟踪得分更新场景网格的场景模型，根据所述场景模型计算目标框的场景置信度，并根据所述场景置信度更新目标框的跟踪得分；(4)利用所述检测模型获得当前帧的检测结果，将目标框与所述检测结果进行匹配，并根据匹配结果和目标框的跟踪得分确定跟踪目标的状态或生成新目标，从而得到当前帧的跟踪结果；其中，所述检测模型是以VGG16的前12层为基础网络的Faster-RCNN，所述检测模型用于检测图像中的各个目标并得到每个检测位置的语义得分；所述语义得分用于表示对应位置处的目标为跟踪目标的可能性，所述历史轨迹为跟踪目标在起始帧至上一帧中的位置序列，所述场景网格为由场景图像预先划分所得的网格，所述场景模型用于计算目标框的场景置信度，所述场景置信度用于表示跟踪目标出现在场景网格中的可能性。2.如权利要求1所述的基于语义信息和场景信息的多目标跟踪方法，其特征在于，所述步骤(1)包括：若当前帧的上一帧为视频序列中的第一帧，则以第一帧的检测结果所确定的位置为中心确定矩形搜索区域；否则，以上一帧的跟踪结果所确定的位置为中心确定矩形搜索区域；利用基于HOG特征和颜色直方图特征的相关滤波算法，根据所确定的矩形搜索区域预测场景中各个跟踪目标在当前帧中的位置；利用所述检测模型的stage2结构对所预测的位置进行边框回归操作，从而对所预测的位置进行修正并获得其语义得分。3.如权利要求1或2所述的基于语义信息和场景信息的多目标跟踪方法，其特征在于，所述步骤(2)包括：对于任意一个目标框B，提取其表观特征向量xt，并获得对应的跟踪目标T在第a帧至第t-1帧的轨迹的表观特征向量xa:t-1；计算所述表观特征向量xt和所述表观特征向量xa:t-1之间的余弦相似度Pmatch，并由此计算所述目标框B的跟踪得分为：St＝Prec*Pmatch；更新所述跟踪目标T在第a帧至第t帧的轨迹的表观特征向量为：xa:t＝(1-ω)xa:t-1+ωxt；其中，a为起始帧编号，t为当前帧编号，Prec为所述目标框B的语义得分，ω为加权系数。4.如权利要求3所述的基于语义信息和场景信息的多目标跟踪方法，其特征在于，所述步骤(2)还包括：根据所述跟踪得分St调整所述加权系数ω的取值，所采用的公式为：其中，Sa:t-1为所述跟踪目标T在第a帧至第t-1帧的跟踪得分的算术平均值。5.如权利要求1或2所述的基于语义信息和场景信息的多目标跟踪方法，其特征在于，所述场景置模型的表达式为：其中，Ppers表示目标框的场景置信度，h表示目标框高度，μ和σ分别为目标框高度的均值和方差。6.如权利要求5所述的基于语义信息和场景信息的多目标跟踪方法，其特征在于，所述步骤(3)中，根据目标框的跟踪得分更新场景网格的场景模型，包括：对于任意一个场景网格G，获得当前帧中属于所述场景网格G的目标框总数n以及起始帧至...

【专利技术属性】
技术研发人员：桑农，皮智雄，秦淮，高常鑫，
申请(专利权)人：华中科技大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人