一种监控视频中运动目标的自动标注方法技术

技术编号:34019767 阅读:18 留言:0更新日期:2022-07-02 16:39
本发明专利技术公开了一种监控视频中运动目标的自动标注方法,可帮助算法研究人员进行基于视频的运动目标标注,快速生成图像样本数据集;本发明专利技术标注过程无监督,是真正意义的运动目标自动标注;标注基于多目标跟踪算法设计,自动检测出现在连续多个视频中的同一运动目标,并赋予相同的标识ID,有效利用了运动目标在连续视频帧之间的时空关联特性,准确率高;对目标遮挡的情况设计了自适应权重的目标匹配算法,有效提高了目标匹配成功率及准确性;可使用预先训练好的卷积神经网络对视频帧进行目标检测,可计算检测目标与跟踪目标之间的特征向量的相似度,以便采集同一运动目标的不同姿态。以便采集同一运动目标的不同姿态。以便采集同一运动目标的不同姿态。

【技术实现步骤摘要】
一种监控视频中运动目标的自动标注方法


[0001]本专利技术涉及智能视频图像分析
,具体为一种监控视频中运动目标的自动标注方法。

技术介绍

[0002]行人重识别是指利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,对于公安、刑侦等领域有着极其巨大的实用价值。行人重识别要求样本数据集按照每个特定的人归类,即:每个人有唯一的标识ID,每个人有多张图片,同一个人的多张图片体现了拍摄角度、光线或者此人的姿态、衣着等方面的区分。
[0003]行人重识别样本数据集的获取常有两种手段获取:从网上下载或者研究人员通过图像标注形成自己的样本数据集。对于后者,基于视频的行人标注相较于基于离散图片集的行人标注更为便捷,因为在视频上很容易获得同一个人的多张图片。
[0004]在视频上进行行人标注,通常的办法有两种:人工标注和自动标注。人工标注是指从视频中选取某些视频帧作为离散图片集,在离散图片集上采用人工的办法进行行人标注。自动标注同样是从视频中选取某些视频帧作为离散图片集,并从中选取一张或多张作为源图片,在源图片上采用人工的办法对感兴趣的行人进行标注,然后对标注的行人进行特征抽取,把特征参数输入预先训练好的神经网络,对除源图片以外的其他图片进行检测分类,进而完成行人标注。
[0005]现有自动标注方法的效率高于人工标注的方法,但仍有多个不足。首先,把多个视频帧视为离散图片集,未能有效利用运动目标在连续视频帧之间的时空关联特性;其次,在自动标注之前需要选取一张或多张源图片进行人工标注,然后再进行下一步的自动标注,未能实现真正意义上的全自动标注;此外,自动标注的行人只能局限于预先在源图片上基于人工标注的行人,而其他行人将会被忽略。
[0006]上面讨论的图像标注主要是针对行人目标进行的标注,不失一般性,这种标注方法同样适用于针对其他目标(包括运动目标和静止目标)的图像标注,比如对于车辆、动物、桌椅、电脑等其他目标。

技术实现思路

[0007]本专利技术的目的在于提供一种监控视频中运动目标的自动标注方法,以解决上述
技术介绍
中提出的问题。
[0008]为了解决上述技术问题,本专利技术提供如下技术方案:一种监控视频中运动目标的自动标注方法,包括以下步骤:
[0009]S1、输入第一个视频帧,记录该视频帧的时间戳t1;
[0010]S2、用预先训练好的深度卷积神经网络对视频帧进行目标检测;
[0011]S3、把检测到的目标放入跟踪队列Q,跟踪队列Q初始为空,跟踪队列Q中的每个目标称为跟踪目标;
[0012]S4、对当前视频帧内的目标进行标注;
[0013]S5、输入下一个视频帧,并记录该视频帧的时间戳t2;
[0014]S6、用预先训练好的卷积神经网络对视频帧进行目标检测,检测到的目标称为检测目标;
[0015]S7、把t2时刻的视频帧内的每个检测目标与跟踪队列Q中的每个跟踪目标进行两两匹配;
[0016]S8、根据匹配结果更新跟踪队列;
[0017]S9、对当前视频帧内的目标进行标注;
[0018]S10、检查视频是否结束,如果未结束则转步骤S5,否则流程结束。
[0019]进一步的,在步骤S2中,采用YoloV5卷积神经网络对输入的视频帧进行目标检测,系统为每个检测出的目标设定以下六个属性:目标ID、目标类别(行人)、目标初始时间、目标更新时间、目标包围矩形框的位置坐标、目标特征向量;其中目标初始时间为目标第一次出现时所在的视频帧的时间戳,目标更新时间为目标再次出现时所在的视频帧的时间戳,目标包围矩形框的位置坐标为该矩形框的左上角和右下角相对于屏幕左上角的像素在行、列方向上的偏移值,目标特征向量为描述该目标的图像特征,不同目标的特征向量不同。
[0020]对于每个目标,其各属性赋值如下:
[0021]目标ID设置为空;
[0022]目标初始时间设置为当前视频帧的时间戳t1;
[0023]目标更新时间设置为当前视频帧的时间戳t1;
[0024]目标包围矩形框的位置坐标设置为(left,top,right,bottom),其中(left,top)为包围矩形框的左上角位置坐标,(right,bottom)为包围矩形框的右下角位置坐标;
[0025]目标特征向量设置为,应用另一预先训练好的卷积神经网络模型对矩形包围框内的目标进行特征提取所得到归一化的128维特征向量。
[0026]进一步的,在步骤S4中,所执行的操作为:
[0027]1)为跟踪队列Q中的每一个目标设置全局唯一的目标ID;
[0028]2)保存当前的视频帧图像以及跟踪队列Q中的所有跟踪目标。显然,当前视频帧内的所有目标均已在跟踪队列中,并且跟踪队列Q里的每个目标所具有的属性:目标ID以及目标包围矩形框的位置坐标,即是对当前视频帧的一个目标标注。
[0029]进一步的,在步骤S6中,对于每个检测目标,其六个属性赋值如下:
[0030]目标ID设置为空;
[0031]目标初始时间设置为当前视频帧的时间戳t2;
[0032]目标更新时间设置为当前视频帧的时间戳t2;
[0033]目标包围矩形框的位置坐标设置为(left,top,right,bottom),其中(left,top)为包围矩形框的左上角位置坐标,(right,bottom)为包围矩形框的右下角位置坐标;
[0034]目标特征向量设置为,应用另一预先训练好的卷积神经网络模型对矩形包围框内的目标进行特征提取所得到归一化的128维特征向量。
[0035]进一步的,在步骤S7中,匹配所做的操作为计算检测目标与跟踪目标之间的特征向量的相似度,采用余弦距离表征相似度;假设跟踪目标和检测目标分别用ID1、ID2表示,则两者特征向量的余弦距离为:
[0036][0037]公式(1)中,Dist(ID2,ID1)表示ID2和ID1的目标特征向量之间的余弦距离,r
ID1
为跟踪目标ID1应用卷积神经网络获得的归一化的128维特征向量,为检测目标ID2应用卷积神经网络获得的归一化的128维特征向量经转置得到的向量。
[0038]方案设置特征向量距离阈值Dist_Threshold,Dist_Threshold满足:0≤Dist_Threshold≤2;本专利技术中Dist_Threshold默认值分别为0.1,在实际使用过程中可以根据需要改变此阈值,从而调节目标匹配的精度。
[0039]对于检测目标ID2与跟踪目标ID1,判断规则为:
[0040]1)如果Dist(ID2,ID1)≤Dist_Threshold,则认为检测目标ID2与跟踪目标ID1匹配成功;
[0041]2)如果Dist(ID2,ID1)>Dist_Threshold,则认为检测目标ID2与跟踪目标ID1匹配失败。
[0042]如果一个检测目标与多个跟踪目标均能匹配成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种监控视频中运动目标的自动标注方法,其特征在于:包括以下步骤:S1、输入第一个视频帧,记录该视频帧的时间戳t1;S2、用预先训练好的深度卷积神经网络对视频帧进行目标检测;S3、把检测到的目标放入跟踪队列Q,跟踪队列Q初始为空,跟踪队列Q中的每个目标称为跟踪目标;S4、对当前视频帧内的目标进行标注;S5、输入下一个视频帧,并记录该视频帧的时间戳t2;S6、用预先训练好的卷积神经网络对视频帧进行目标检测,检测到的目标称为检测目标;S7、把t2时刻的视频帧内的每个检测目标与跟踪队列Q中的每个跟踪目标进行两两匹配;S8、根据匹配结果更新跟踪队列;S9、对当前视频帧内的目标进行标注;S10、检查视频是否结束,如果未结束则转步骤S5,否则流程结束。2.根据权利要求1所述的一种监控视频中运动目标的自动标注方法,其特征在于:在步骤S2中,采用YoloV5卷积神经网络对输入的视频帧进行目标检测,系统为每个检测出的目标设定以下六个属性:目标ID、目标类别(行人)、目标初始时间、目标更新时间、目标包围矩形框的位置坐标、目标特征向量;其中目标初始时间为目标第一次出现时所在的视频帧的时间戳,目标更新时间为目标再次出现时所在的视频帧的时间戳,目标包围矩形框的位置坐标为该矩形框的左上角和右下角相对于屏幕左上角的像素在行、列方向上的偏移值,目标特征向量为描述该目标的图像特征,不同目标的特征向量不同。对于每个目标,其各属性赋值如下:目标ID设置为空;目标初始时间设置为当前视频帧的时间戳t1;目标更新时间设置为当前视频帧的时间戳t1;目标包围矩形框的位置坐标设置为(left,top,right,bottom),其中(left,top)为包围矩形框的左上角位置坐标,(right,bottom)为包围矩形框的右下角位置坐标;目标特征向量设置为,应用另一预先训练好的卷积神经网络模型对矩形包围框内的目标进行特征提取所得到归一化的128维特征向量。3.根据权利要求1所述的一种监控视频中运动目标的自动标注方法,其特征在于:在步骤S4中,所执行的操作为:1)为跟踪队列Q中的每一个目标设置全局唯一的目标ID;2)保存当前的视频帧图像以及跟踪队列Q中的所有跟踪目标。显然,当前视频帧内的所有目标均已在跟踪队列中,并且跟踪队列Q里的每个目标所具有的属性:目标ID以及目标包围矩形框的位置坐标,即是对当前视频帧的一个目标标注。4.根据权利要求1所述的一种监控视频中运动目标的自动标注方法,其特征在于:在步骤S6中,对于每个检测目标,其六个属性赋值如下:目标ID设置为空;目标初始时间设置为当前视频帧的时间戳t2;
目标更新时间设置为当前视频帧的时间戳t2;目标包围矩形框的位置坐标设置为(left,top,right,bottom),其中(left,top)为包围矩形框的左上角位置坐标,(right,bottom)为包围矩形框的右下角位置坐标;目标特征向量设置为,应用另一预先训练好的卷积神经网络模型对矩形包围框内的目标进行特征提取所得到归一化的128维特征向量。5.根据权利要求1所述的一种监控视频中运动目标的自动标注方法,其特征在于:在步骤S7中,匹配所做的操作为计算检测目标与跟踪目标之间的特征向量的相似度,采用余弦距离表征相似度;假设跟踪目标和检测目标分别用ID1、ID2表示,则两者特征向量的余弦距离为:公式(1)中,Dist(ID2,ID1)表示ID2和ID1的目标特征向量之间的余弦距离,r
ID1
为跟踪目标ID1应用卷积神经网络获得的归一化的128维特征向量,为检测目标ID2应用卷积神经网络获得的归一化的128维特征向量经转置得到的向量。方案设置特征向量距离阈值Dist_Threshold,Dist_Threshold满足:0≤Dist_Threshold≤2;本发明中Dist_Threshold默认值分别为0.1,在实际使用过程中可以根据需要改变此阈值,从而调节目标匹配的精度。对于检测目标ID2与跟踪目标ID1,判断规则为:1)如果Dist(ID2,ID1)≤Dist_Threshold,则认为检测目标ID2与跟踪目标ID1匹配成功;2)如果Dist(ID2,ID1)>Dist_Threshold,则认为检测目标ID2与跟踪目标ID1匹配失败。如果一个检测目标与多个跟踪目标均能匹配成功,则选取余弦距离最小的跟踪目标作为最佳匹配;把匹配成功的检测目标放入匹配成功队列Q1,并把它与最佳匹配成功的跟踪目标的目标ID相关联。如果一个检测目标与多个跟踪目标均为匹配失败,则选取余弦距离最小的跟踪目标作为最佳匹配失败目标;把匹配失败的检测目标放入匹...

【专利技术属性】
技术研发人员:马小骏贺安鹰吕云松朱永成
申请(专利权)人:江苏东大金智信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1