一种可植入单目标跟踪器的自适应裁剪头制造技术

技术编号:36399024 阅读:43 留言:0更新日期:2023-01-18 10:05
本发明专利技术涉及单目标跟踪技术领域,具体的说是一种可植入单目标跟踪器的自适应裁剪头,包括以下步骤,S1:获取初始模板T和当前帧图像Z,并编码处理,S2:通过互相关操作,获得初步响应图R1,S3:生成当前帧定制的Mask掩码,并与R1进行点到点相乘操作,获得最终响应图R2,S4:根据最终响应图R2,找到最终最大响应点,并进行裁剪,输入跟踪器,无需复杂的训练,植入简单,即插即用,效果明显,一直以来,在单目标跟踪中,大家都是致力于提高跟踪器的性能,或者是希望回归框更加准确和贴合,往往忽略了,对原图到需要送入跟踪器的裁剪后图片的过程进行一个优化,本发明专利技术对该过程进行了合理的优化取得了很可观的提升效果。很可观的提升效果。很可观的提升效果。

【技术实现步骤摘要】
一种可植入单目标跟踪器的自适应裁剪头


[0001]本专利技术涉及一种目标跟踪裁剪头,具体为一种可植入单目标跟踪器的自适应裁剪头,属于单目标跟踪


技术介绍

[0002]单目标跟踪近几十年来一直是计算机视觉领域的一项基本任务,旨在根据其初始状态估计视频序列中任意目标的状态,它已成功部署在各种应用中,例如人机交互和视觉监控,然而,如何设计一个简单而有效的端到端的跟踪器在现实世界中仍然具有挑战性,主要挑战来自于尺度变化、物体变形、遮挡和相似物体的混淆等方面,
[0003]当前流行的跟踪器主要包含三种。首先是传统的集成方法,包括基于相关性操作的算法(例如SiamFC、SiamRPN、SiamFC++、SiamBAN)和在线学习算法(例如DCF、ATOM、DiMP),以及最近,由于其强大的全局动态建模能力的Transformers被引入,以执行基于注意力的集成,产生目前最好跟踪性能的跟踪器(例如,TransT、stark、mixformer)。然而,这些跟踪器都有着同样的跟踪器预处理部分,具体来说就是按照上一帧跟踪器所定位出目标位置的中心当作下一帧的裁剪中心,裁剪到指定的图片尺寸后,当作当前帧搜索区域输入跟踪器中进行跟踪,这期间是没有任何处理过程。当目标是正常出现(没有丢失问题)时,这种先验策略往往是有效的,但是在实际现实中,由于遮挡引起目标消失等问题是非常常见的,此时这种强先验策略就会出现一个弊端,即目标已经离开了即将送入跟踪器的裁剪搜索区域,这时候就必然会无法跟踪到目标,并且随着时间误差的积累,这些弊端在在线过程中被进一步放大,大大降低跟踪效果。
[0004]有鉴于此特提出本专利技术,通过分析,目标被严重遮挡后,理论上来说,再次出现是可能出现在当前帧的任何一个位置,如果只是简单的把未裁剪的当前帧图片直接送入跟踪器backbone是不切合实际的,未裁剪的图片分辨率几千到上万,会大大降低跟踪器的速度,影响跟踪器实时性,除此之外,在没有先验的情况下(目标下一帧出现位置是在上一帧目标位置的附近),对全局进行搜索很容易被相似物干扰,致使跟踪器分心。但是此时又需要对当前帧全图进行一个检测,至少需要找到目标的大概位置,对目标所在位置进行裁剪,再送入跟踪器处理,鉴于此我们提出了一个巧妙有效的通用的自适应裁剪头(Cropping Adaptive Head),既兼顾到原中心裁剪策略的思想和效果,又增加了跟踪器对于目标遮挡、相似物干扰等问题的鲁棒性,让原本不具有任何对抗遮挡,干扰等问题的跟踪器也能有一定的能力去找到消失后再次出现的目标,本专利技术不需要复杂的训练过程,即插即用,并因使用了每一帧定制的mask掩码,对一定距离的干扰物也有一定的辨别能力,大大增加了跟踪器的跟踪能力,最后本专利技术引入了快速傅里叶变化进行加速,计算速度很快,并不会对具有实时性跟踪器的实时性有影响。

技术实现思路

[0005]本专利技术的目的就在于为了解决上述问题而提供一种可植入单目标跟踪器的自适
应裁剪头,不需要复杂的训练过程,即插即用,并因使用了每一帧定制的mask掩码,对一定距离的干扰物也有一定的辨别能力,大大增加了跟踪器的跟踪能力,最后本专利技术引入了快速傅里叶变化进行加速,计算速度很快,并不会对具有实时性跟踪器的实时性有影响。
[0006]本专利技术通过以下技术方案来实现上述目的,一种可植入单目标跟踪器的自适应裁剪头,包括以下步骤:
[0007]S1:获取初始模板T和当前帧图像Z,并编码处理。
[0008]S2:通过互相关操作,获得初步响应图R1。
[0009]S3:生成当前帧定制的Mask掩码,并与R1进行点到点相乘操作,获得最终响应图R2。
[0010]S4:根据最终响应图R2,找到最终最大响应点,并进行裁剪,输入跟踪器。
[0011]进一步,所述步骤S1中,模板T和当前帧图像Z编码过程为:
[0012]S1a:在视频M的第一帧人工用选框框定要跟踪的目标,框定的目标即为模板T、记录选框的左上角坐标信息(x,y)和选框高宽(h,w)信息,同时获取当前帧图像Z,对T和Z进行RGB格式转tensor格式,并且加一个batch维度,即(B,C,H,W)。
[0013]S1b:对S1a处理后的T和Z,进行预处理下采样操作,目的就是为了加速运算,下采样的倍率D,可以自己设置的,根据速度和精确度中的要求可以选择合适的下采样倍率。下采样后的T和Z记作T1和Z1。
[0014]再进一步,所述步骤S2中,时域频域互相转换以及互相关卷积部分,具体过程为:
[0015]S2a:将模板T1以及Z1从时域转换到频域,并对Z1进行填充,来保证在快速傅里叶变换后,特征图和Z1的高宽一致不改变,这样做有利于在响应图中快速找到目标对应于Z1的位置。
[0016]S2b:以T1为频域中的卷积核,进行互相关卷积,实现快速傅里叶变换。之所以这样做,因为正常目标一般是比较大的像素块,不像常规卷积核只是3*3或者5*5,虽然小卷积核下快速傅里叶变换不一定会比常规互相关速度快,但是当卷积核比较大的时候,快速傅里叶变化所提升的速度就越明显,并且随着卷积核也就是目标模板的尺寸变大,速度提升的就越明显。
[0017]S2c:快速傅里叶变换结束后,进行快速傅里叶逆运算,将互相关响应图从频域转换到时域,将会得到与Z1高宽尺寸一致的初步响应图R1,具体初步响应图R1。
[0018]再进一步的,所述步骤S3中,定制Mask掩码和逐点相乘部分,具体过程为:
[0019]S3a:获取R1的高和宽的信息(HM,WM),以及上一帧目标框中心位置(xc,yc)。
[0020]S3b:以上一帧目标框中心位置(xc,yc)为高斯分布的蒙版Mask中心,使得在(xc,yc)位置时候,Mask所对应的值为1,随着Mask上的点到(xc,yc)的距离越远,Mask上所对应的值就越小,最小可以是无限接近于0。很显然Mask掩码就是初步响应图R1,各个对应点对应的权重值,Mask掩码权重图。
[0021]S3c:除此之外,在制作Mask期间,添加了一个衰减比率S,它的作用主要是控制Mask上的响应值衰减的速度,S越大,衰减的越慢,S越小,衰减的越快。
[0022]S3d:至此,会得到一个与R1响应图,高宽一模一样大小的Mask掩码,R1和Mask上的点是一一对应的,只需要对R1和Mask进行逐点相乘,就会得到最终的经过权重修正的响应图R2,加权响应图R2。
[0023]更进一步的,所述步骤S4,根据加权响应图R2,获取最大相应点,上采样后进行裁剪并送入跟踪器的具体过程:
[0024]S4a:遍历R2响应图,找到加权响应图R2最大响应点,记录坐标(xm,ym)。
[0025]S4b:最初的图像是下采样D倍的,现在对(xm,ym)的高宽放大D倍,得到最终最大响应点(XM,YM)。
[0026]S4c:将(XM,YM)传入到跟踪器,以(XM,YM)为中心进行裁剪,不同的跟踪器有不同的裁剪方式本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可植入单目标跟踪器的自适应裁剪头,其特征在于:在进行使用时,方法包括以下步骤;S1:获取初始模板T和当前帧图像Z,并编码处理;S2:通过互相关操作,获得初步响应图R1;S3:生成当前帧定制的Mask掩码,并与R1进行点到点相乘操作,获得最终响应图R2;S4:根据最终响应图R2,找到最终最大响应点,并进行裁剪,输入跟踪器。2.根据权利要求1所述的一种可植入单目标跟踪器的自适应裁剪头,其特征在于:步骤S1中,模板T和当前帧图像Z编码过程为:S1a:在视频M的第一帧人工用选框框定要跟踪的目标,框定的目标即为模板T、记录选框的左上角坐标信息(x,y)和选框高宽(h,w)信息,同时获取当前帧图像Z,对T和Z进行RGB格式转tensor格式,并且加一个batch维度,即(B,C,H,W);S1b:对S1a处理后的T和Z,进行预处理下采样操作,下采样的倍率D,,根据速度和精确度中的要求可以选择合适的下采样倍率,下采样后的T和Z记作T1和Z1。3.根据权利要求1所述的一种可植入单目标跟踪器的自适应裁剪头,其特征在于:在步骤S2中,互相关操作的具体过程为:S2a:将模板T1以及Z1从时域转换到频域,并对Z1进行填充,来保证在快速傅里叶变换后,特征图和Z1的高宽一致不改变,有利于在响应图中快速找到目标对应于Z1的位置;S2b:以T1为频域中的卷积核,进行互相关卷积,实现快速傅里叶变换;S2c:快速傅里叶变换结束后,进行快速傅里叶逆运算,将互...

【专利技术属性】
技术研发人员:刘晓涛袁点李艺帆吴宪祥刘静
申请(专利权)人:西安电子科技大学广州研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1