基于孪生网络和YOLO目标检测模型的目标跟踪方法及系统技术方案

技术编号:35091571 阅读:23 留言:0更新日期:2022-10-01 16:49
本发明专利技术提出一种基于孪生网络和YOLO目标检测模型的目标跟踪方法及系统,其中,步骤包括:输入待测视频文件;在第一帧中框定目标,将目标框调整到固定大小,输入孪生特征提取网络提取特征;在后续帧中利用YOLO目标检测模型提取候选框,并调整到固定大小,输入孪生特征提取网络,提取特征;将后续帧分别与第一帧和前一帧的特征进行相似性度量,并得到总相关分数,得分最高的候选框作为目标轨迹进行记录,得分低于阈值判断为目标丢失,跳过当前帧继续后续帧目标搜索,形成完整的轨迹链实现目标跟踪。本发明专利技术基于孪生网络和YOLO目标检测模型的目标跟踪方法,鲁棒性好,可以有效应对目标遮挡和消失,实现对目标的完整跟踪。实现对目标的完整跟踪。

【技术实现步骤摘要】
基于孪生网络和YOLO目标检测模型的目标跟踪方法及系统


[0001]本专利技术涉及人工智能与计算机视觉
,特别涉及一种基于孪生网络和YOLO目标检测模型的目标跟踪方法及系统。

技术介绍

[0002]近年来,随着人们对更智能、更便捷、更高质量生活的向往,人工智能正在悄然渗入到各行各业并改变着我们的生活方式。计算机视觉是人工智能领域的重要分支,旨在研究如何让计算机像人类视觉系统一样智能地感知、分析、处理现实世界。以图像和视频为信息载体的各项计算机视觉算法,早已渗透到大众的日常生活中,如人脸识别、人机交互、商品检索、智能监控、视觉导航等。视频目标跟踪技术,作为计算机视觉领域中基础的、重要的研究方向之一,一直是研究人员的关注热点。
[0003]视频目标跟踪要求在已知第一帧感兴趣物体的位置和尺度信息的情况下,对该目标在后续视频帧中进行持续的定位和尺度估计。广义的目标跟踪通常包含单目标跟踪和多目标跟踪,两者既有差别又有紧密的联系。多目标跟踪算法主要包括目标检测和轨迹关联,以确保同一个物体在视频中获得固定的、唯一的数字标识。多目标跟踪通常限定在目标类别已知的场景中,如多行人、多车辆的视觉跟踪,因此,多目标跟踪算法高度依赖现成的目标检测器,物体检测的质量直接关系到后续的多目标轨迹关联。不同地,单目标跟踪算法要求处理任意类别的物体,即不知道任何关于目标的先验信息。虽然前提条件略有差异,但正如其名,单目标跟踪与多目标跟踪都紧紧围绕着视频中的物体识别与跟踪,因而在外观建模、运动分析、轨迹关联等技术细节上有紧密的关联。如何将单目标跟踪技术应用于多目标跟踪领域也被广泛研究。因此,研究经典的、通用的单目标跟踪任务对于整个跟踪领域的发展有重要意义。
[0004]当前目标跟踪的主要挑战包括:目标形态变化、目标尺度变化、目标遮挡与消失等。为了应对目标跟踪的这些挑战,人们进行了大量的研究,近年来,随着深度学习的火热发展,其在计算机视觉领域也取得了一系列突破性的研究成果,其强大的特征提取能力能够使得目标跟踪更为鲁棒,因此,基于深度学习的目标跟踪研究更加深入,尤其是基于检测和孪生网络的目标跟踪,成为当下研究的热点方向。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本专利技术的第一个目的在于提出一种基于孪生网络和YOLO目标检测模型的目标跟踪方法,该方法适用于针对特定目标的跟踪,鲁棒性好,可以有效应对目标跟踪过程中的遮挡和消失,实现对目标的完整跟踪。
[0007]本专利技术的另外一个目的在于提出一种基于孪生网络和YOLO目标检测模型的目标跟踪系统。
[0008]为达上述目的,本专利技术一方面实施例提出了一种基于孪生网络和YOLO目标检测模
型的目标跟踪方法,包括以下步骤:输入待测视频文件;在第一帧中框定待跟踪目标,将待跟踪目标框调整到固定大小,输入孪生特征提取网络获取目标深度特征;在后续帧中利用YOLO目标检测模型提取候选框,并将全部候选框调整到固定大小,输入孪生特征提取网络获取深度特征;将后续帧的特征分别与第一帧、前一帧的特征进行相似性度量,加权求和得到总相关分数;将得分最高的候选框串联成目标轨迹进行记录,得分低于阈值判断为目标丢失,跳过当前帧继续后续帧目标搜索,形成完整的轨迹链实现目标跟踪。
[0009]本专利技术实施例的基于孪生网络和YOLO目标检测模型的目标跟踪方法,该方法可以通过YOLO目标检测模型获得后续帧中的目标候选位置,通过孪生特征提取网络提取待跟踪目标和后续帧目标候选框的深度特征,对特征向量关联匹配得到目标轨迹实现跟踪,该方法鲁棒性好,可以有效应对目标遮挡和消失,实现对目标的完整跟踪。
[0010]另外,根据本专利技术上述实施例的基于孪生网络和YOLO目标检测模型的目标跟踪方法还可以具有下述的附加技术特征:
[0011]进一步地,在本专利技术中的一个实施例中,所述的待测视频文件,即将AVI格式的视频先按帧率截取JPG格式的视频帧数据进行存储。
[0012]进一步地,在本专利技术中的一个实施例中,所述的孪生特征提取网络包括两个部分,第一部分将输入的图像调整到固定大小;第二部分将调整后的第一帧、后续帧目标框图像输入权值共享的卷积神经网络(Convolutional Neural Networks,CNN)进行特征提取,分别得到各自的特征向量。
[0013]进一步地,在本专利技术中的一个实施例中,所述的YOLO目标检测模型将输入视频帧图像分成7*7个网格(Grid Cell),每个Grid Cell负责检测落入该格子的物体,若某个物体的中心位置的坐标落入到该Grid Cell中,那么这个Grid Cell就负责检测出这个物体,输出2个包含物体的矩形区域(Bounding Box)。每个Bounding Box包含5个数据信息,分别是x,y,w,h和confidence。其中,x,y是指当前Grid Cell预测得到的物体的Bounding Box的中心位置的坐标;w,h是Bounding Box的宽度和高度;confidence是反映当前Bounding Box是否包含物体的置信度,计算方式如下:
[0014]confidence=P(object)*IOU
[0015]其中,若Bounding Box包含物体,则P(object)=1,否则P(object)=0,IOU(Intersection Over Union)为预测Bounding Box与物体真实区域的交集面积,以像素为单位,用真实区域的像素面积归一化到[0,1]区间。
[0016]进一步地,在本专利技术中的一个实施例中,所述的相似性度量使用欧式距离进行计算,公式如下:
[0017]Distance<X1,X
i,j
>=||G(X1)

G(X
i,j
)||
[0018]Distance<X
i,j
,X
i+1,k
>=||G(X
i,j
)

G(X
i+1,k
)||
[0019]其中,Distance<,>表示欧氏距离,|| ||表示L2范数计算,G(X1)表示第1帧中待跟踪目标的特征向量,G(X
i,j
)表示第i帧中第j个候选框的特征向量,G(X
i+1,k
)表示第i+1帧中第k个候选框的特征向量。
[0020]进一步地,在本专利技术中的一个实施例中,所述的加权求和得到的总相关分数R计算公式如下:
[0021]R=0.5*Distance<X1,X
i,j
>+0.5*Distance<X
i,j
,X
i+1,k
>
[0022]进一步地,在本专利技术中的一个实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生网络和YOLO目标检测模型的目标跟踪方法,其特征在于,包括:输入待测视频文件;在第一帧中框定待跟踪目标,将目标框调整到固定大小,输入孪生特征提取网络获取目标深度特征;在后续帧中利用YOLO目标检测模型提取候选框,并将全部候选框调整到固定大小,输入孪生特征提取网络获取深度特征;将后续帧分别与第一帧、前一帧的特征进行相似性度量,加权求和得到总相关分数;将得分最高的候选框串联成目标轨迹进行记录,得分低于阈值判断为目标丢失,跳过当前帧继续后续帧目标搜索,形成完整的轨迹链实现目标跟踪。2.根据权利要求1所述的基于孪生网络和YOLO目标检测模型的目标跟踪方法,其特征在于,所述待测视频文件,即将AVI格式的视频先按帧率截取JPG格式的视频帧数据进行存储。3.根据权利要求1所述的基于孪生网络和YOLO目标检测模型的目标跟踪方法,其特征在于,所述孪生特征提取网络包括两个部分,第一部分将输入的图像调整到固定大小;第二部分将调整后的第一帧、后续帧目标框图像输入权值共享的卷积神经网络(Convolutional Neural Networks,CNN)进行特征提取,分别得到各自的特征向量。4.根据权利要求1所述的基于孪生网络和YOLO目标检测模型的目标跟踪方法,其特征在于,所述YOLO目标检测模型将输入视频帧图像分成7*7个网格(Grid Cell),每个Grid Cell负责检测落入该格子的物体,若某个物体的中心位置的坐标落入到该Grid Cell中,那么这个Grid Cell就负责检测出这个物体,输出2个包含物体的矩形区域(Bounding Box)。每个Bounding Box包含5个数据信息,分别是x,y,w,h和confidence。其中,x,y是指当前Grid Cell预测得到的物体的Bounding Box的中心位置的坐标;w,h是Bounding Box的宽度和高度;confidence是反映当前Bounding Box是否包含物体的置信度,计算方式如下:confidence=P(object)*IOU其中,若Bounding Box包含物体,则P(object)=1,否则P(object)=0,IOU(Intersection Over Union)为预测Bounding Box与物体真实区域的交集面积,以像素为单位,用真实区域的像素面积归一化到[0,1]区间。5.根据权利要求1所述的基于孪生网络和YOLO目标检测模型的目标跟踪方法,其特征在于,所述相似性度量使用欧式距离进行计算,公式如下:Distance<X1,X
i,j
>=||G(X1)

G(X
i,j
)||Distance<X
i,j
,X
i+1,k
>=||G(X
i,j
)

G(X
i+1,k
)||其中,Distance<,>表示欧氏距离,|| ||表示L2范数计算,G(X1)表示第1帧中待跟踪目标的特征向量,G(X
i,j
)表示第i帧中第j个候选框的特征向量,G(X
i+1,k
)表示第i+1帧中第k个候选框的特征向量。6.根据权利要求5所述的基于孪生网络和YOLO目标检测模型的目标跟踪方法,其特征在于,所述加权求和得到的总相关分数R计算公式如下:R=0.5*Distance<X1,X
i,j
>+0.5*Distance<X
i,j
,X
i+1,k
>7.一种基于基于孪生网络和YOLO目标检测模型的目标跟踪系...

【专利技术属性】
技术研发人员:王瑜石健彤段逸凡
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1