基于深暹罗网络和贝叶斯优化的视频跟踪制造技术

技术编号：27879386 阅读：11 留言：0更新日期：2021-03-31 01:09

本公开涉及基于深暹罗网络和贝叶斯优化的视频跟踪，提供了用于视频跟踪的装置、方法、系统和计算机可读介质。在视频的初始帧中选择要跟踪的样本裁剪块。通过以下方式对视频的每个后续帧应用贝叶斯优化：基于从视频的当前帧的搜索空间收集的候选裁剪块的相似度分数，来使用高斯过程回归(GPR)建立目标函数的替代模型。使用采集函数确定搜索空间中的下一候选裁剪块。使用暹罗神经网络将该下一候选裁剪块与样本裁剪块进行比较。使用暹罗神经网络将新的候选裁剪块与样本裁剪块进行比较，直到在当前帧中找到样本裁剪块为止。新的候选裁剪块是基于更新的替代模型选择的。

全部详细技术资料下载

【技术实现步骤摘要】
基于深暹罗网络和贝叶斯优化的视频跟踪
实施例总体上涉及计算机视觉。具体而言，实施例涉及视频跟踪。更具体地，实施例涉及使用深暹罗网络(deepSiamesenetwork)和贝叶斯优化(Bayesianoptimization)的有效视频跟踪。
技术介绍
早期的视频跟踪方法包括基于特征的方法和模板匹配算法，它们试图跟踪对象的特定特征或甚至整个对象。基于特征的方法使用局部特征，包括点和边、关键点、SIFT(尺度不变特征变换)、HOG(方向梯度直方图)特征和可变形部分。相反，基于模板的匹配将对象作为一个整体，提供了处理不能单独由局部特征建模的复杂模板或模式的潜在优势。最近，深度学习模型被应用于视频跟踪，以利用从大数据集学习复杂函数的好处。虽然深度学习模型提供了提高跟踪鲁棒性的潜力，但它们对视频跟踪造成了两个重大挑战。首先，许多深度学习跟踪模型由于需要在线训练而在实际使用中速度太慢。其次，许多深度学习跟踪模型在离线训练时是基于分类方法的，因此它们仅限于特定类别的搜索，并且经常需要聚集许多图像块(imagepatch)，从而为了定位目标而多次通过网络。鉴于这两个困难，一些当代最先进的基于深度学习的跟踪模型已经发展成为通用的对象跟踪器，以试图消除在线训练的需要，并提高跟踪器的通用性。最新的最先进模型应用了一种用于训练通用跟踪器的基于回归的方法GOTURN，离线学习外观和运动之间的通用关系。一些深度学习技术另外还包括运动和遮挡模型，包括粒子过滤和光流。即使最近在视频跟踪方面取得了成功，但在将深度学习技术与经典统计和...

【技术保护点】
1.一种用于视频跟踪的计算机系统，包括：/n一个或多个处理器；/n耦合到所述一个或多个处理器的一个或多个存储器设备，所述一个或多个存储器设备包括指令，所述指令在由所述一个或多个处理器执行时，使所述计算机系统执行以下操作：/n在视频的初始帧中选择要跟踪的样本裁剪块；/n对所述视频的每个后续帧应用贝叶斯优化，以：/n基于从所述视频的当前帧的搜索空间收集的候选裁剪块的相似度分数，来使用高斯过程回归GPR建立目标函数的替代模型；以及/n使用采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置；/n使用暹罗神经网络将所述下一候选裁剪块与所述样本裁剪块进行比较；以及/n继续使用所述暹罗神经网络将新的候选裁剪块与所述样本裁剪块进行比较，直到在所述当前帧中找到所述样本裁剪块为止，其中所述新的候选裁剪块是基于更新的替代模型选择的。/n

【技术特征摘要】
20190927 US 16/586,6711.一种用于视频跟踪的计算机系统，包括：
一个或多个处理器；
耦合到所述一个或多个处理器的一个或多个存储器设备，所述一个或多个存储器设备包括指令，所述指令在由所述一个或多个处理器执行时，使所述计算机系统执行以下操作：
在视频的初始帧中选择要跟踪的样本裁剪块；
对所述视频的每个后续帧应用贝叶斯优化，以：
基于从所述视频的当前帧的搜索空间收集的候选裁剪块的相似度分数，来使用高斯过程回归GPR建立目标函数的替代模型；以及
使用采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置；
使用暹罗神经网络将所述下一候选裁剪块与所述样本裁剪块进行比较；以及
继续使用所述暹罗神经网络将新的候选裁剪块与所述样本裁剪块进行比较，直到在所述当前帧中找到所述样本裁剪块为止，其中所述新的候选裁剪块是基于更新的替代模型选择的。

2.根据权利要求1所述的计算机系统，其中，用于建立所述目标函数的替代模型的指令还包括以下指令，所述指令在由所述一个或多个处理器执行时，使所述计算机系统执行以下操作：
在所述视频的所述当前帧的所述搜索空间中获得图像的候选裁剪块；
通过使所述候选裁剪块中的每个通过所述暹罗神经网络来获得所述候选裁剪块中的每个的相似度分数；以及
使用所述候选裁剪块中的每个的每个相似度分数在所述图像上绘制图形，以对所述帧中尚未被采样的位置的相似度分数进行插值。

3.根据权利要求1所述的计算机系统，其中，用于使用所述采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置的指令还包括以下指令，所述指令在由所述一个或多个处理器执行时，使所述计算机系统执行以下操作：
将所述采集函数应用于所述搜索空间中的所述候选裁剪块中的每个，以在不使所述候选裁剪块通过暹罗神经网络的情况下，获得所述候选裁剪块的相似度分数的近似值，就像是已经使所述候选裁剪块中的每个通过了所述暹罗神经网络一样；以及
从所述搜索空间中选择具有最大采集函数结果的候选裁剪块作为所述下一候选裁剪块。

4.根据权利要求1所述的计算机系统，其中，所述采集函数包括记忆分数预期改善MS-EI采集函数。

5.根据权利要求1所述的计算机系统，其中，用于将所述下一候选裁剪块与所述样本裁剪块进行比较的指令还包括以下指令，所述指令在由所述一个或多个处理器执行时，使所述计算机系统执行以下操作：
使所述下一候选裁剪块通过所述暹罗神经网络以获得相似度分数；
用新的相似度分数更新所述替代模型；以及
找到经更新的替代模型上的最大点，以用作所述新的候选裁剪块。

6.根据权利要求1所述的计算机系统，其中，所述替代模型形成代表所述视频的每个帧中被跟踪对象的位置的山和谷的图形。

7.根据权利要求1所述的计算机系统，其中，所述暹罗神经网络被训练为通用对象相似度函数。

8.根据权利要求1所述的计算机系统，其中，所述搜索空间包括d×d网格，并且其中，所述替代模型被提供在所述d×d网格上。

9.一种用于视频跟踪的方法，包括：
在视频的初始帧中选择要跟踪的样本裁剪块；
通过以下方式对所述视频的每个后续帧应用贝叶斯优化：
基于从所述视频的当前帧的搜索空间收集的候选裁剪块的相似度分数，来使用高斯过程回归GPR建立目标函数的替代模型；以及
使用采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置；
使用暹罗神经网络将所述下一候选裁剪块与所述样本裁剪块进行比较；以及
继续使用所述暹罗神经网络将新的候选裁剪块与所述样本裁剪块进行比较，直到在所述当前帧中找到所述样本裁剪块为止，其中所述新的候选裁剪块是基于更新的替代模型选择的。

10.根据权利要求9所述的方法，其中，建立所述目标函数的替代模型还包括：
在所述视频的所述当前帧的所述搜索空间中获得图像的候选裁剪块；
通过使所述候选裁剪块中的每个通过所述暹罗神经网络来获得所述候选裁剪块中的每个的相似度分数；以及
使用所述候选裁剪块中的每个的每个相似度分数在所述图像上绘制图形，以对所述帧中尚未被采样的位置的相似度分数进行插值。

11.根据权利要求9所述的方法，其中，使用所述采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置还包括：
将所述采集函数应用于所述搜索空间中的所述候选裁剪块中的每个...

【专利技术属性】
技术研发人员：安东尼·罗德斯，马南·戈尔，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人