当前位置: 首页 > 专利查询>河南大学专利>正文

基于Transformer和时空记忆的多目标跟踪方法技术

技术编号:36393331 阅读:51 留言:0更新日期:2023-01-18 09:58
本发明专利技术提出了一种基于Transformer和时空记忆的多目标跟踪方法,其步骤为:首先,利用连续四帧视频图像进行提取特征信息;并将四帧的特征信息融合获取高质量富含时空信息的特征;其次,将某一时间窗口内所有行人信息存储的动态时空记忆模块中,并与当前视频图像目标进行外观相似度和距离得分的计算;最后外观相似度得分和距离得分融合得到最终得分,利用最终得分预测目标轨迹。本发明专利技术能在相机移动、行人快速移动等情况下精准定位行人位置,采用动态时空记忆模块消除形变的影响,利用外观相似度和距离融合得分预测目标轨迹,解决了长距离遮挡的问题,获得精准的目标轨迹。获得精准的目标轨迹。获得精准的目标轨迹。

【技术实现步骤摘要】
基于Transformer和时空记忆的多目标跟踪方法


[0001]本专利技术涉及视频场景分析处理
,特别是指一种基于Transformer和时空记忆的多目标跟踪方法。

技术介绍

[0002]多目标跟踪旨在根据包含多个对象的视频序列查找和跟踪具有相同身份的所有对象。多目标跟踪在解决视频分析和计算机视觉的许多基本问题方面发挥着重要作用,并不断应用到各个领域应用,如自动驾驶、智能城市、视觉监控、公共安全、视频分析和人机交互等。在复杂场景中,受到相机移动、目标形变和频繁遮挡等情况影响,检测精度会明显下降,从而导致跟踪效果变差。
[0003]近年来,基于检测跟踪范式的方法将多目标跟踪分为检测和关联两个任务。首先检测视频图像中的所有目标,然后根据关联算法匹配轨迹。其中,数据关联是核心部分。一些算法使用空间尺度度量来实现连续视频图像之间的关联。然而,在大多数跟踪场景中都存在各种挑战,例如相机运动、快速对象移动和遮挡。当上述情况发生时,检测器很难输出稳定的检测结果,无法为后续数据关联提供有效支持。此外,相邻视频图像之间的对象可能具有较大的位移,因本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Transformer和时空记忆的多目标跟踪方法,其特征在于,其步骤如下:步骤一:输入连续四帧图像,并对图像进行预处理;步骤二:利用神经网络提取预处理后的图像的特征信息;步骤三:利用时空强化模块融合四帧图像的特征信息,获取时空信息特征;步骤四:获取目标的检测框,根据时空信息特征提取检测框位置信息和检测框内目标的行人特征;步骤五:将某一时间窗口内所有行人特征和检测框位置信息存储的动态时空记忆模块中,并与当前视频图像内目标进行外观相似度和距离得分的计算;步骤六:将外观相似度得分和距离得分融合得到最终得分,当最终得分大于阈值时,则判定为同一目标;若当前目标存储在动态时空记忆模块中,得到当前目标的轨迹后,更新存储的行人特征和检测框位置信息;若当前目标未存储在动态时空记忆模块中,则存储当前目标的行人特征和检测框位置信息。2.根据权利要求1所述的基于Transformer和时空记忆的多目标跟踪方法,其特征在于,所述对图像进行预处理的方法为:将输入的原始图像的尺寸从1920
×
1080变为1280
×
1280。3.根据权利要求2所述的基于Transformer和时空记忆的多目标跟踪方法,其特征在于,所述利用神经网络提取预处理后的图像的特征信息的方法为:将变换后的四帧图像同时输入到CenterNet主干网络中提取特征信息。4.根据权利要求3所述的基于Transformer和时空记忆的多目标跟踪方法,其特征在于,所述时空强化模块融合四帧图像的特征信息的方法为:首先将四张图片的特征信息F∈R
NT*C*H*W
变换为F1∈R
N*C*T*H*W
,多个通道进行平均得到F2∈R
N*1*T*H*W
后传入卷积核为3
×3×
3的3D卷积中得到F3;F3经过3D卷积操作后与F1进行矩阵相乘的结果再与F经过全局平均池化、全连接层后的结果进行卷积操作,得到时空信息特征F4;表达式为:其中,reshape(
·
)是尺寸变换操作,mean(
·
)是多通道的平均操作,f(
...

【专利技术属性】
技术研发人员:肖启阳谷松波杨茂林李森贾林胡振涛
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1