图像中的目标对象跟踪方法及装置、电子设备及存储介质制造方法及图纸

技术编号:39306246 阅读:11 留言:0更新日期:2023-11-12 15:54
本发明专利技术公开了一种图像中的目标对象跟踪方法及装置、电子设备及存储介质,涉及人工智能领域,其中,该跟踪方法包括:基于目标对象在目标视频中的第一帧图像上的预设位置,提取第一帧图像上的预设特征,将其作为特征模板进行图像处理操作,提取下一帧图像的图像特征图,并基于特征模板以及图像特征图,确定目标对象在下一帧图像上的目标位置,再进行模板更新操作,基于目标位置确定下一帧图像上的目标特征,并对目标特征进行更新,将更新后的目标特征作为新的特征模板,多次执行图像处理操作以及模板更新操作,直至目标视频中的所有图像都处理完毕,完成对目标对象的跟踪。本发明专利技术解决了相关技术中无法对图像中的目标对象进行有效跟踪的技术问题。效跟踪的技术问题。效跟踪的技术问题。

【技术实现步骤摘要】
图像中的目标对象跟踪方法及装置、电子设备及存储介质


[0001]本专利技术涉及人工智能领域,具体而言,涉及一种图像中的目标对象跟踪方法及装置、电子设备及存储介质。

技术介绍

[0002]图像目标跟踪是指在一系列连续的图像帧中(即视频中),根据目标对象在第一帧图像中的位置,自动检测并定位目标对象在后续帧图像中的位置的过程。图像目标跟踪是计算机视觉领域中的一个重要研究,有着广泛的应用场景,例如,视频监控、智能交通、人机交互等。
[0003]当前,图像目标跟踪的难点在于目标对象在图像序列中可能会出现各种形变,例如,尺度变化、姿态变化、遮挡、光照变化等,这些形变会影响目标特征的提取和匹配,导致跟踪失效或不准确。为了解决上述问题,相关技术中往往基于卷积神经网络(CNN)通过使用深层的卷积层来提取目标和候选区域的特征,并通过分类或回归等方式来判断或定位目标位置。
[0004]然而,由于相关技术中的CNN使用的卷积操作是基于固定的网格采样位置进行的,无法自适应地调整卷积核的形状和大小,以适应目标对象的形变,并且,相关技术中的CNN也无法动态地更新目标特征,以适应目标对象的运动规律。因此,相关技术中的CNN对于目标对象的形变难以适应,容易造成跟踪失效的问题。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种图像中的目标对象跟踪方法及装置、电子设备及存储介质,以至少解决相关技术中无法对图像中的目标对象进行有效跟踪的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种图像中的目标对象跟踪方法,包括:第一帧图像处理操作,确定目标对象在目标视频中的第一帧图像上的预设位置,基于所述预设位置,采用预设卷积网络提取所述第一帧图像上的预设特征,并将所述预设特征表征为特征模板,其中,所述目标视频包括:多张图像;图像处理操作,选取所述目标视频中的下一帧图像,采用所述预设卷积网络提取所述下一帧图像的图像特征图,并基于所述特征模板以及所述图像特征图,确定所述目标对象在所述下一帧图像上的目标位置,其中,所述下一帧图像为除所述第一帧图像之外的任一图像;模板更新操作,基于所述目标位置确定所述下一帧图像上的目标特征,并采用预设记忆网络对所述目标特征进行更新,得到更新后的所述目标特征,将更新后的所述目标特征表征为新的所述特征模板;多次执行所述图像处理操作以及所述模板更新操作,直至所述目标视频中的所有图像都处理完毕,完成对所述目标对象的跟踪。
[0008]可选地,所述预设卷积网络包括:偏移量生成层、预设卷积层,基于所述预设位置,采用预设卷积网络提取所述第一帧图像上的预设特征的步骤,包括:采用所述偏移量生成
层对所述第一帧图像进行处理,生成偏移量矩阵;基于所述偏移量矩阵,采用所述预设卷积层对所述第一帧图像进行处理,得到输出特征图;基于所述预设位置以及所述输出特征图,确定所述预设特征。
[0009]可选地,所述第一帧图像的图像大小为C
×
H
×
W,C是预设输入通道数,H是预设高度和W是预设宽度,所述预设卷积层中的卷积核大小为K
×
C
×
k
h
×
k
w
,K是输出通道数,k
h
和k
w
分别是所述卷积核的核高度和核宽度,输出通道包括:多个通道位置,基于所述偏移量矩阵,采用所述预设卷积层对所述第一帧图像进行处理,得到输出特征图的步骤,包括:基于所述预设输入通道数、所述核高度、所述核宽度以及所述偏移量矩阵,确定输出通道上每个所述通道位置的特征值;基于所述输出通道上所有所述通道位置的所述特征值,生成所述输出通道的通道特征图;基于所有所述通道特征图,生成所述输出特征图。
[0010]可选地,基于所述特征模板以及所述图像特征图,确定所述目标对象在所述下一帧图像上的目标位置的步骤,包括:基于所述特征模板以及所述图像特征图,确定候选区域集合;确定所述特征模板指示的特征与所述候选区域集合中每个候选区域指示的特征之间的相似度;对所述相似度进行排序,并将最大相似度指示的所述候选区域确定为所述目标位置。
[0011]可选地,基于所述特征模板以及所述图像特征图,确定候选区域集合的步骤,包括:基于所述特征模板的模板大小,确定滑动窗口;采用所述滑动窗口在所述图像特征图上进行滑动处理,得到多个滑动区域;确定每个所述滑动区域指示的特征与所述特征模板指示的特征之间的相似度;将大于预设相似度阈值的所述相似度指示的所述滑动区域确定为所述候选区域,并将所述候选区域加入至所述候选区域集合。
[0012]可选地,所述跟踪方法还包括:构建所述预设记忆网络,其中,所述预设记忆网络包括:记忆单元、遗忘门控单元、输入门控单元、输出门控单元,所述记忆单元用于生成候选状态信息以单元状态信息,所述遗忘门控单元用于生成遗忘门信息,所述输入门控单元用于生成输入门信息,所述输出门控单元用于生成输出门信息以及单元输出信息;训练所述预设记忆网络,并在训练完成的情况下,确定所述预设记忆网络的预设权重值以及预设偏置值。
[0013]可选地,采用预设记忆网络对所述目标特征进行更新,得到更新后的所述目标特征的步骤,包括:基于上一时刻单元输出信息、所述目标特征、所述预设权重值以及所述预设偏置值,确定当前时刻遗忘门信息、当前时刻输入门信息、当前时刻候选状态信息以及当前时刻输出门信息,其中,所述上一时刻单元输出信息是所述预设记忆网络在上一时刻输出的单元输出信息;基于所述当前时刻遗忘门信息、所述当前时刻输入门信息、所述当前时刻候选状态信息以及上一时刻单元状态信息,确定当前时刻单元状态信息;基于所述当前时刻输出门信息以及所述当前时刻单元状态信息,确定当前时刻单元输出信息;基于所述当前时刻单元输出信息,确定更新后的所述目标特征。
[0014]根据本专利技术实施例的另一方面,还提供了一种图像中的目标对象跟踪装置,包括:第一处理单元,用于进行第一帧图像处理操作,确定目标对象在目标视频中的第一帧图像上的预设位置,基于所述预设位置,采用预设卷积网络提取所述第一帧图像上的预设特征,并将所述预设特征表征为特征模板,其中,所述目标视频包括:多张图像;第二处理单元,用于进行图像处理操作,选取所述目标视频中的下一帧图像,采用所述预设卷积网络提取所
述下一帧图像的图像特征图,并基于所述特征模板以及所述图像特征图,确定所述目标对象在所述下一帧图像上的目标位置,其中,所述下一帧图像为除所述第一帧图像之外的任一图像;更新单元,用于进行模板更新操作,基于所述目标位置确定所述下一帧图像上的目标特征,并采用预设记忆网络对所述目标特征进行更新,得到更新后的所述目标特征,将更新后的所述目标特征表征为新的所述特征模板;执行单元,用于多次执行所述图像处理操作以及所述模板更新操作,直至所述目标视频中的所有图像都处理完毕,完成对所述目标对象的跟踪。
[0015]可选地,所述预设卷积网络包括:偏移量生成层本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像中的目标对象跟踪方法,其特征在于,包括:第一帧图像处理操作,确定目标对象在目标视频中的第一帧图像上的预设位置,基于所述预设位置,采用预设卷积网络提取所述第一帧图像上的预设特征,并将所述预设特征表征为特征模板,其中,所述目标视频包括:多张图像;图像处理操作,选取所述目标视频中的下一帧图像,采用所述预设卷积网络提取所述下一帧图像的图像特征图,并基于所述特征模板以及所述图像特征图,确定所述目标对象在所述下一帧图像上的目标位置,其中,所述下一帧图像为除所述第一帧图像之外的任一图像;模板更新操作,基于所述目标位置确定所述下一帧图像上的目标特征,并采用预设记忆网络对所述目标特征进行更新,得到更新后的所述目标特征,将更新后的所述目标特征表征为新的所述特征模板;多次执行所述图像处理操作以及所述模板更新操作,直至所述目标视频中的所有图像都处理完毕,完成对所述目标对象的跟踪。2.根据权利要求1所述的跟踪方法,其特征在于,所述预设卷积网络包括:偏移量生成层、预设卷积层,基于所述预设位置,采用预设卷积网络提取所述第一帧图像上的预设特征的步骤,包括:采用所述偏移量生成层对所述第一帧图像进行处理,生成偏移量矩阵;基于所述偏移量矩阵,采用所述预设卷积层对所述第一帧图像进行处理,得到输出特征图;基于所述预设位置以及所述输出特征图,确定所述预设特征。3.根据权利要求2所述的跟踪方法,其特征在于,所述第一帧图像的图像大小为C
×
H
×
W,C是预设输入通道数,H是预设高度和W是预设宽度,所述预设卷积层中的卷积核大小为K
×
C
×
k
h
×
k
w
,K是输出通道数,k
h
和k
w
分别是所述卷积核的核高度和核宽度,输出通道包括:多个通道位置,基于所述偏移量矩阵,采用所述预设卷积层对所述第一帧图像进行处理,得到输出特征图的步骤,包括:基于所述预设输入通道数、所述核高度、所述核宽度以及所述偏移量矩阵,确定输出通道上每个所述通道位置的特征值;基于所述输出通道上所有所述通道位置的所述特征值,生成所述输出通道的通道特征图;基于所有所述通道特征图,生成所述输出特征图。4.根据权利要求1所述的跟踪方法,其特征在于,基于所述特征模板以及所述图像特征图,确定所述目标对象在所述下一帧图像上的目标位置的步骤,包括:基于所述特征模板以及所述图像特征图,确定候选区域集合;确定所述特征模板指示的特征与所述候选区域集合中每个候选区域指示的特征之间的相似度;对所述相似度进行排序,并将最大相似度指示的所述候选区域确定为所述目标位置。5.根据权利要求4所述的跟踪方法,其特征在于,基于所述特征模板以及所述图像特征图,确定候选区域集合的步骤,包括:基于所述特征模板的模板大小,确定滑动窗口;
采用所述滑动窗口在所述图像特征图上进行滑动处理,得到多个滑动区域;确...

【专利技术属性】
技术研发人员:陈辉兴
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1