【技术实现步骤摘要】
多目标跟踪与分割系统及方法
[0001]本申请涉及视觉
,尤其涉及一种多目标跟踪与分割系统及方法。
技术介绍
[0002]多目标跟踪与分割(multi
‑
object tracking and segmentation,MOTS)任务是计算机视觉领域中视频分析的基础任务,它的目标在于让模型精确预测视频中各物体的检测框和分割掩码,并在时间维度上对目标的标识ID进行匹配,在每一帧之间都做一个ID的匹配,也就是对于同一物体需要指定为同一ID。相比于多目标跟踪(multi
‑
object tracking,MOT)任务,对目标跟踪任务指示检测出框,多目标跟踪与分割任务的特点在于需要预测出目标的实例级分割掩码,也就是物体本身的轮廓。随着深度学习技术的发展,深度神经网络已经被成功应用于MOT和MOTS任务中,诞生出如DeepSORT(Simple Online Realtime Tracking with a Deep Association Metric,基于深度关联度量的简单在线实时跟踪)、FairMOT(Fair Multiple Object Tracking,公平的多目标跟踪)、QDTrack(Quasi
‑
Dense Tracking,准稠密跟踪)、PCAN(Prototypical Cross
‑
Attention Networks,原型互注意力网络)等方法。此前的MOTS方法都是在MOT方法基础上加入分割分支进行的,而分割结果也完全依赖 ...
【技术保护点】
【技术特征摘要】
1.一种多目标跟踪与分割系统,其特征在于,包括:特征提取模块、多个检测分割模块和追踪器,各所述检测分割模块包括分割头和与分割头连接的检测器,各所述检测器依次连接到下一检测分割模块的检测器且各所述分割头连接到下一检测分割模块的分割头,所述多个检测分割模块分为第一个检测分割模块、一个或多个中间检测分割模块和最后一个检测分割模块,所述最后一个检测分割模块还包括与所述检测器连接的检测头;所述特征提取模块,用于对目标视频的每个视频帧进行特征提取,获取到每个视频帧的图像特征;所述第一个检测分割模块中:检测器用于对所述图像特征进行检测得到第二特征和图像提取特征;分割头用于根据接收到的第二特征预测出中间阶段分割参考特征,并将所述中间阶段分割参考特征处理后与所述第二特征融合得到第三特征;各所述中间检测分割模块中:检测器用于对接收到的图像提取特征进行检测得到第二特征和图像提取特征;分割头用于根据接收到的第三特征以及所述第二特征预测出中间阶段分割参考特征,并将所述中间阶段分割参考特征处理后与所述第二特征融合得到第三特征;所述最后一个检测分割模块中:检测器用于对接收到的图像提取特征进行检测,得到第一特征、第二特征和跟踪嵌入特征;检测头用于根据接收到的第一特征进行目标检测得到目标检测结果;分割头用于根据接收到的第三特征以及所述第二特征预测出分割结果;所述追踪器,用于根据所述跟踪嵌入特征和所述目标检测结果,确定出跟踪结果。2.根据权利要求1所述的系统,其特征在于,所述第一个检测分割模块还包括处理子模块,则在所述第一个检测分割模块中:所述检测器,用于将所述第二特征分别发送至所述处理子模块和所述分割头;所述处理子模块,用于对接收到的所述第二特征进行精细化处理后,将得到的精细化第二特征发送至所述分割头;其中,分割头用于根据接收到的第二特征预测出中间阶段分割参考特征,包括:分割头用于根据接收到的第二特征和所述精细化第二特征预测出中间阶段分割参考特征。3.根据权利要求1或2所述的系统,其特征在于,所述中间检测分割模块和所述最后一个检测分割模块中的一个或多个模块还包括处理子模块,各所述处理子模块连接在所在所述中间检测分割模块或所述最后一个检测分割模块的检测器和分割头之间,则在设置有处理子模块的所述中间检测分割模块或所述最后一个检测分割模块中:所述检测器,用于将所述第二特征发送至所述处理子模块;所述处理子模块,用于对接收到的所述第二特征进行精细化处理后,将得到的精细化第二特征发送至所连接的所述分割头;其中,分割头用于根据接收到的第三特征以及所述第二特征预测出中间阶段分割参考特征,包括:分割头用于根据接收到的第三特征以及所述精细化第二特征预测出中间阶段分割参考特征;并且/或者分割头用于根据接收到的第三特征以及所述第二特征预测出分割结果,包括:分割头用于根据接收到的第三特征以及所述精细化第二特征预测出分割结果。4.根据权利要求1所述的系统,其特征在于,各所述中间检测分割模块和所述第一个检测分割模块均设置有检测头,各所述检测头连接到下一检测分割模块的检测器,
所述第一个检测分割模块中:检测器还用于对接收到的所述图像特征进行检测,得到第一特征,所述检测头用于对所述第一特征进行检测得到目标检测中间结果,并将所述目标检测中间结果发送至所连接的下一检测器中;各所述中间检测分割模块中:检测器用于对接收到的图像提取特征进行检测得到第二特征和图像提取特征,包括:检测器用于对接收到的图像提取特征和目标检测中间结果进行检测得到第一特征、第二特征和图像提取特征;所述检测头用于对所述第一特征进行检测得到目标检测中间结果,并将所述目标检测中间结果发送至所连接的下一检测器中;所述最后一个检测分割模块中:检测器用于对接收到的图像提取特征进行检测,得到第一特征、第二特征和跟踪嵌入特征,包括:检测器用于对接收到的图像提取特征和目标检测中间结果进行检测,得到第一特征、第二特征和跟踪嵌入特征。5.根据权利要求1所述的系统,其特征在于,将所述中间阶段分割参考特征处理后与所述第二特征融合得到第三特征,包括:对所述中间阶段分割参考特征进行线性变换后与所述第二特征求和,得到第三特征。6.根据权利要求1所述的系统,其特征在于,还包括:至少一个时域融合模块,各所述时域融合模块连接在相邻的两个分割头之间,用于根据来自上一分割头的第三特征和与当前视频帧对应的参考视频帧的第三特征,通过帧间注意力计算和差分注意力计算确定出对应的时序信息并融合到所述第三特征中,得到融合后第三特征,所述参考视频帧为所述当前视频帧的上一视频帧;其中,分割头用于根据接收到的第三特征以及所述第二特征预测出中间阶段分割参考特征,包括:分割头用于根据接收到的融合后第三特征以及所述第二特征预测出中间阶段分割参考特征;并且/或者分割头用于根据接收到的第三特征以及所述第二特征预测出分割结果,包括:分割头用于根据接收到的融合后第三特征以及所述第二特征预测出分割结果。7.根据权利要求1所述的系统,其特征在于,根据来自上一分割头的第三特征和与当前视频帧对应的参考视频帧的第三特征,通过帧间注意力计算和差分注意力计算确定出对应的时序信息并融合到所述第三特征中,得到融合后第三特征,包括:对当前视频帧的第三特征和参考视频帧的第三特征分别进行第一卷积变换,得到当前视频帧的第一变换后特征和参考视频帧的第二变换后特征;根据所述第一变换后特征和所述第二变换后特征进行处理,得到所述当前视频帧相对所述参考帧的差分特征;将所述差分特征和所述第一变换后特征进行矩阵相乘处理,得到所述当前视频帧相对所述参考帧的差分相似度特征;将所述第一变换后特征和所述第二变换后特征进行矩阵相乘处理,得到所述当前视频帧相对所述参考帧的双帧相似度特征;将所述差分相似度特征进行激活运算后,与对当前视频帧的第三特征进行第二卷积变换得到的第三变换后特征进行矩阵相乘处理,得到差分注意力特征;将所述双帧相似度特征进行激活运算后,与对当前视频帧的第三特征进行第二卷积变换得到的第三变换后特征进行矩阵相乘处理,得到双帧注意力特征;根据所述第三特征、所述差分注意力特征和所述双帧注意力特征,求和计算出融合后
第三特征。8.根据权利要求1所述的系统,其特征在于,在所述系统的训练过程中,所述第一个检测分割模块中,所述分割头还用于根据接收到的第二特征进行预测得到中间分割结果;各所述中间检测分割模块中,所述分割头还用于根据接收到的第二特征和第三特征进行预测得到中间分割结果;所述最后一个检测分割模块中,所述分割头还用于根据接收到的第三特征以及所述第二特征预测出中间阶段分割参考特征;其中,各所述检测头、各所述分割头的输出结果用于作为所述系统训练过程中系统损失函数的计算依据,所述系统损失函数是更新所述系统的参数的依据。9.一种多目标跟踪与分割系统,其特征在于,包括:特征提取模块、多个检测分割模块、追踪器和时域融合模块,各所述检测分割模块包括检测器,所述多个检测分割模块分为第一个检测分割模块、一个或多个中间检测分割模块和最后一个检测分割模块,所述最后一个检测分割模块还包括检测头和分割头,所述时域融合模块连接在所述最后一个检测分割模块的检测器和分割头之间;所述特征提取模块,用于对目标视频的每个视频帧进行特征提取,获取到每个视频帧的图像特征;所述第一个检测分割模块中,检测器用于对接收到的所述图像特征进行检测,得到图像提取特征并发送至连接的下一检测器;各所述中间检测分割模块中,检测器用于对接收到的图像提取特征进行检测,得到图像提取特征并发送至连接的下一检测器;所述最后一个检测分割模块中,检测器用于对接收到的图像提取特征进行检测,得到第一特征、第二特征和跟踪嵌入特征;检测头用于根据接收到的第一特征进行目标检测得到目标检测结果;所述时域融合模块,用于接收到所述第二特征之后,根据所述第二特征和与当前视频帧对应的参考视频帧的第二特征,通过帧间注意力计算和差分注意力计算确定出对应的时序信息并融合到所述第二特征中得到的融合后第二特征,并将所述融合后第二特征发送至所述最后一个检测分割模块中的分割头,所述参考视频帧为所述当前视频帧的上一视频帧;所述最后一个检测分割模块中的分割头用于根据接收到的所述融合后第二特征预测出分割结果;所述追踪器,用于根据所述跟踪嵌入特征和所述目标检测结果,确定出跟踪结果。10.根据权利要求9所述的系统,其特征在于,根据所述第二特征和与当前视频帧对应的参考视频帧的第二特征,通过帧间注意力计算和差分注意力计算确定出对应的时序信息并融合到所述第二特征中得到的融合后第二特征,包括:对当前视频帧的第二特征和参考视频帧的第二特征分别进行第一卷积变换,得到当前视频帧的第一变换后特征和参考视频帧的第二变换后特征;根据所述第一变换后特征和所述第二变换后特征进行处理,得到所述当前视频帧相对所述参考帧的差分特征;
将所述差分特征和所述第一变换后特征进行矩阵相乘处理,得到所述当前视频帧相对所述参考帧的差分相似度特征;将所述第一变换后特征和所述第二变换后特征进行矩阵相乘处理,得到所述当前视频帧相对所述参考帧的双帧相似度特征;将所述差分相似度特征进行激活运算后,与对当前视频帧的第二特征进行第二卷积变换得到的第三变换后特征进行矩阵相乘处理,得到差分注意力特征;将所述双帧相似度特征进行激活运算后,与对当前视频帧的第二特征进行第二卷积变换得到的第三变换后特征进行矩阵相乘处理,得到双帧注意力特征;根据所述第二特征、所述差分注意力特征和所述双帧注意力特征,求和计算出融合后第二特征。11.根据权利要求9或10所述的系统,其特征在于,各所述中间检测分割模块和所述第一个检测分割模块均设置有检测头,各所述检测头连接到下一检测分割模块的检测器,所述第一个检测分割模块中:检测器还用于对接收到的所述图像特征进行检测得到第一特征,所述检测头用于对所述第一特征进行检测得到目标检测中间结果,并将所述目标检测中间结果发送至下一检测分割模块中的检测器中;各所述中间检测分割模块中:检测器用于对接收到的图像提取特征进行检测,得到新的图像提取特征,包括:检测器用于对接收到的所述图像提取特征和所述目标检测中间结果进行检测,得到第一特征和所述图像提取特征;所述检测头用于对所述第一特征进行检测得到目标检测中间结果,并将所述目标检测中间结果发送至下一检测分割模块中的检测器中;所述最后一个检测分割模块中:检测器用于对接收到的图像提取特征进行检测,得到第一特征、第二特征和跟踪嵌入特征,包括:检测器用于对接收到的图像提取特征和目标检测中间结果进行检测,得到第一特征、第二特征和跟踪嵌入特征。12.根据权利要求11所述的系统,其特征在于,各所述中间检测分割模块和所述第一个检测分割模块均设置有分割头,在所述系统的训练过程中,所述第一个检测分割模块中:所述检测器还用于对所述图像特征进行检测得到第二特征,并将所述第二特征发送至所述第一个检测分割模块的分割头中,所述分割头用于根据所述第二特征进行预测得到中间分割结果;各所述中间检测分割模块中:所述检测器还用于对所述图像提取特征进行检测得到第二特征,并将所述第二特征发送至所在中间检测分割模块的分割头中;所述分割头用于根据接收到的所述第二特征进行预测得到中间分割结果;其中,各所述检测头、各所述分割头的输出结果用于作为所述系统训练过程中系统损失函数的计算依据,所述系统损失函数是更新所述系统的参数的依据。13.根据权利要求9所述的系统,其特征在于,所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。