一种目标跟踪的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：28842033 阅读：11 留言：0更新日期：2021-06-11 23:41

本公开提供了一种目标跟踪的方法、装置、电子设备及存储介质，其中，该方法包括：获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；目标边界框中包含有目标对象；从初始视频帧和目标视频帧中分别提取第一特征图和第二特征图；基于第一特征图和第二特征图，确定融合后特征图，并基于融合后特征图生成针对目标视频帧的至少一个初始预测边界框；根据目标视频帧的至少一个初始预测边界框以及融合后特征图，确定针对目标视频帧的目标跟踪结果；其中，目标跟踪结果包括从至少一个初始预测边界框中选取的目标边界框。本公开利用融合后特征图对初始预测边界框进行筛选，进而选取到更为准确的目标对象所处位置，跟踪效果更佳。

全部详细技术资料下载

【技术实现步骤摘要】
一种目标跟踪的方法、装置、电子设备及存储介质
本公开涉及目标跟踪
，具体而言，涉及一种目标跟踪的方法、装置、电子设备及存储介质。
技术介绍
目标跟踪作为计算机视觉中的一个重要研究方向，被广泛应用在各个领域，例如，视频监控、人机交互、无人驾驶等。现有的目标跟踪任务可以是根据视频初始帧给定的目标状态，例如，用边界框表示目标所在的位置，以预测随后帧的目标状态。然而，现有方法由于仅仅给出目标的初始状态，并且存在着相似的物体，背景复杂，非刚性物体形变和快速运动等问题，这使得所预测的目标状态的准确性较差，跟踪效果不佳。
技术实现思路
本公开实施例至少提供一种目标跟踪的方法、装置、电子设备及存储介质，提升目标状态预测的准确性，目标跟踪效果更佳。第一方面，本公开实施例提供了一种目标跟踪的方法，所述方法包括：获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；所述目标边界框中包含有目标对象；从所述初始视频帧和所述目标视频帧中分别提取第一特征图和第二特征图；基于所述第一特征图和所述第二特征图，确定融合后特征图，并基于所述融合后特征图生成针对所述目标视频帧的至少一个初始预测边界框；根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果；其中，所述目标跟踪结果包括从所述至少一个初始预测边界框中选取的包含所述目标对象的目标边界框。采用上述目标跟踪的方法，在获取到标注有目标边界框的初始视频帧以及待进行目标...

【技术保护点】
1.一种目标跟踪的方法，其特征在于，所述方法包括：/n获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；所述目标边界框中包含有目标对象；/n从所述初始视频帧和所述目标视频帧中分别提取第一特征图和第二特征图；/n基于所述第一特征图和所述第二特征图，确定融合后特征图，并基于所述融合后特征图生成针对所述目标视频帧的至少一个初始预测边界框；/n根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果；其中，所述目标跟踪结果包括从所述至少一个初始预测边界框中选取的包含所述目标对象的目标边界框。/n

【技术特征摘要】
1.一种目标跟踪的方法，其特征在于，所述方法包括：
获取标注有目标边界框的初始视频帧、以及待进行目标跟踪的目标视频帧；所述目标边界框中包含有目标对象；
从所述初始视频帧和所述目标视频帧中分别提取第一特征图和第二特征图；
基于所述第一特征图和所述第二特征图，确定融合后特征图，并基于所述融合后特征图生成针对所述目标视频帧的至少一个初始预测边界框；
根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果；其中，所述目标跟踪结果包括从所述至少一个初始预测边界框中选取的包含所述目标对象的目标边界框。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频帧的至少一个初始预测边界框以及所述融合后特征图，确定针对所述目标视频帧的目标跟踪结果，包括：
基于第一预设卷积参数对所述融合后特征图进行第一卷积运算，得到第一卷积后特征图；
利用训练好的第一对齐卷积神经网络、以及所述目标视频帧的至少一个初始预测边界框，对所述第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图；
确定所述网络输出的第一卷积后特征图所指示的所述至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；
从所述至少一个初始预测边界框中选取概率值最大的初始预测边界框作为所述包含目标对象的目标边界框。

3.根据权利要求2所述的方法，其特征在于，所述利用训练好的第一对齐卷积神经网络、以及所述目标视频帧的至少一个初始预测边界框，对所述第一卷积后特征图进行对齐卷积运算，得到网络输出的第一卷积后特征图，包括：
确定所述训练好的第一对齐卷积神经网络对应的卷积核参数；
利用所述卷积核参数对所述第一卷积后特征图进行遍历；
在遍历至与所述目标视频帧的任一初始预测边界框对应的第一卷积后特征区域的情况下，将所述卷积核参数指示的卷积核与所述第一卷积后特征区域进行卷积运算，得到网络输出的第一卷积后特征图；
其中，所述第一卷积后特征区域包含在所述第一卷积后特征图中，且与所述初始预测边界框的尺寸相同。

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：
基于第二预设卷积参数对所述融合后特征图进行第二卷积运算，得到第二卷积后特征图；
利用训练好的第二对齐卷积神经网络以及所述目标视频帧中包含目标对象的目标边界框，对所述第二卷积后特征图进行对齐卷积运算，得到网络输出的第二卷积后特征图；
确定所述网络输出的第二卷积后特征图所指示的针对所述目标边界框的调整量；
基于所述网络输出的所述调整量对所述目标边界框进行调整，得到调整后的目标边界框。

5.根据权利要求4所述的方法，其特征在于，所述待进行目标跟踪的目标视频帧中标注有包含目标对象的目标边界框；按照如下步骤训练所述第一对齐卷积神经网络和所述第二对齐卷积神经网络：
将生成的针对所述目标视频帧的至少一个初始预测边界框以及第一卷积后特征图输入至待训练的第一对齐卷积神经网络，得到网络输出的第一卷积后特征图；确定所述网络输出的第一卷积后特征图所指示的所述至少一个初始预测边界框中每个初始预测边界框包含目标对象的概率值；将概率值最大的初始预测边界框的位置信息与针对所述待进行目标跟踪的目标视频帧进行标注的目标边界框的位置信息进行比对，得到第...

【专利技术属性】
技术研发人员：钟华平，陈泽都，何聪辉，
申请(专利权)人：深圳市商汤科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人