当前位置: 首页 > 专利查询>英特尔公司专利>正文

基于深暹罗网络和贝叶斯优化的视频跟踪制造技术

技术编号:27879386 阅读:11 留言:0更新日期:2021-03-31 01:09
本公开涉及基于深暹罗网络和贝叶斯优化的视频跟踪,提供了用于视频跟踪的装置、方法、系统和计算机可读介质。在视频的初始帧中选择要跟踪的样本裁剪块。通过以下方式对视频的每个后续帧应用贝叶斯优化:基于从视频的当前帧的搜索空间收集的候选裁剪块的相似度分数,来使用高斯过程回归(GPR)建立目标函数的替代模型。使用采集函数确定搜索空间中的下一候选裁剪块。使用暹罗神经网络将该下一候选裁剪块与样本裁剪块进行比较。使用暹罗神经网络将新的候选裁剪块与样本裁剪块进行比较,直到在当前帧中找到样本裁剪块为止。新的候选裁剪块是基于更新的替代模型选择的。

【技术实现步骤摘要】
基于深暹罗网络和贝叶斯优化的视频跟踪
实施例总体上涉及计算机视觉。具体而言,实施例涉及视频跟踪。更具体地,实施例涉及使用深暹罗网络(deepSiamesenetwork)和贝叶斯优化(Bayesianoptimization)的有效视频跟踪。
技术介绍
早期的视频跟踪方法包括基于特征的方法和模板匹配算法,它们试图跟踪对象的特定特征或甚至整个对象。基于特征的方法使用局部特征,包括点和边、关键点、SIFT(尺度不变特征变换)、HOG(方向梯度直方图)特征和可变形部分。相反,基于模板的匹配将对象作为一个整体,提供了处理不能单独由局部特征建模的复杂模板或模式的潜在优势。最近,深度学习模型被应用于视频跟踪,以利用从大数据集学习复杂函数的好处。虽然深度学习模型提供了提高跟踪鲁棒性的潜力,但它们对视频跟踪造成了两个重大挑战。首先,许多深度学习跟踪模型由于需要在线训练而在实际使用中速度太慢。其次,许多深度学习跟踪模型在离线训练时是基于分类方法的,因此它们仅限于特定类别的搜索,并且经常需要聚集许多图像块(imagepatch),从而为了定位目标而多次通过网络。鉴于这两个困难,一些当代最先进的基于深度学习的跟踪模型已经发展成为通用的对象跟踪器,以试图消除在线训练的需要,并提高跟踪器的通用性。最新的最先进模型应用了一种用于训练通用跟踪器的基于回归的方法GOTURN,离线学习外观和运动之间的通用关系。一些深度学习技术另外还包括运动和遮挡模型,包括粒子过滤和光流。即使最近在视频跟踪方面取得了成功,但在将深度学习技术与经典统计和机器学习方法充分结合起来的最先进视频跟踪工作流中仍然存在空白。例如,大多数最先进的视频跟踪器缺乏生成系统信念状态(systematicbeliefstate)的能力(例如,通过明确的误差和不确定性度量),或者缺乏无缝结合情境和场景结构的方式,或者缺乏自适应地编码时间信息的方式(例如,通过施加智能搜索停止条件和界限),以及缺乏以精确和有原则的方式直接地且推断性地控制区域建议生成或采样方法的能力。
技术实现思路
本公开的实施例提供了一种用于视频跟踪的计算机系统,包括:一个或多个处理器;耦合到一个或多个处理器的一个或多个存储器设备,一个或多个存储器设备包括指令,指令在由一个或多个处理器执行时,使计算机系统执行以下操作:在视频的初始帧中选择要跟踪的样本裁剪块;对视频的每个后续帧应用贝叶斯优化,以基于从视频的当前帧的搜索空间收集的候选裁剪块的相似度分数,来使用高斯过程回归GPR建立目标函数的替代模型;以及使用采集函数确定搜索空间中能够熟练地获得下一候选裁剪块的位置;使用暹罗神经网络将下一候选裁剪块与样本裁剪块进行比较;以及继续使用暹罗神经网络将新的候选裁剪块与样本裁剪块进行比较,直到在当前帧中找到样本裁剪块为止,其中新的候选裁剪块是基于更新的替代模型选择的。本公开的实施例提供了一种用于视频跟踪的方法,包括:在视频的初始帧中选择要跟踪的样本裁剪块;通过以下方式对视频的每个后续帧应用贝叶斯优化:基于从视频的当前帧的搜索空间收集的候选裁剪块的相似度分数,来使用高斯过程回归GPR建立目标函数的替代模型;以及使用采集函数确定搜索空间中能够熟练地获得下一候选裁剪块的位置;使用暹罗神经网络将下一候选裁剪块与样本裁剪块进行比较;以及继续使用暹罗神经网络将新的候选裁剪块与样本裁剪块进行比较,直到在当前帧中找到样本裁剪块为止,其中新的候选裁剪块是基于更新的替代模型选择的。本公开的实施例提供了一种用于视频跟踪的装置,包括:用于在视频的初始帧中选择要跟踪的样本裁剪块的模块;用于通过以下模块对视频的每个后续帧应用贝叶斯优化的模块:用于基于从视频的当前帧的搜索空间收集的候选裁剪块的相似度分数来使用高斯过程回归GPR建立目标函数的替代模型的模块;以及用于使用采集函数确定搜索空间中能够熟练地获得下一候选裁剪块的位置的模块;用于使用暹罗神经网络将下一候选裁剪块与样本裁剪块进行比较的模块;以及用于继续使用暹罗神经网络将新的候选裁剪块与样本裁剪块进行比较直到在当前帧中找到样本裁剪块为止的模块,其中,新的候选裁剪块是基于更新的替代模型选择的。附图说明通过阅读以下说明书和所附权利要求,并通过参考以下附图,实施例的各种优点对于本领域技术人员将清晰可见,在附图中:图1A是示出根据实施例的用于对视频剪辑中的对象进行视频跟踪的简化过程的图;图1B是根据实施例的对视频剪辑中的对象进行跟踪的方法的简化流程图;图2A是根据实施例的训练暹罗网络的方法的流程图;图2B是根据实施例的用于确定两个对象之间的相似度的简化框图;图3A是根据实施例的将贝叶斯优化与深度学习相结合以跟踪视频中的对象的方法的流程图;图3B是示出根据实施例的DOP的的图;图4是根据实施例的暹罗动态贝叶斯跟踪(Siamese-DynamicBayesianTracking)的示例方法的流程图;图5是示出针对三个基线视频跟踪模型测试暹罗动态贝叶斯跟踪模型(SDBTM)的性能的每帧IOU结果的图;图6是根据实施例的具有深暹罗网络和贝叶斯优化的计算机系统有效视频跟踪的示例性框图;图7是根据实施例的半导体包封装置的示例的图示;图8是根据实施例的示例性处理器的框图;以及图9是根据实施例的示例性计算系统的框图。在下面的详细描述中,参考构成本文的一部分的附图,其中类似的数字通篇指定类似的部分,并且在附图中通过可实践的说明实施例来示出。应当理解,可以利用其他实施例,并且可以在不脱离本公开的范围的情况下做出结构或逻辑改变。因此,不应以限制性意义来理解下面的详细描述,并且实施例的范围由所附权利要求及其等同物限定。总的来说。具体实施方式技术提供了一种用于目标跟踪的统计原理的方法,该方法将深度学习神经网络模型与动态贝叶斯优化框架相结合,以使智能计算机视觉系统能够执行高级视觉任务,例如场景和行为理解。深度学习的鲁棒性与贝叶斯优化的效率相结合,产生了一种需要最少对象查询次数的准确跟踪器。同时,组合生成的置信度和不确定性度量通过平衡先验知识和新的查询信息来指导本地化过程。视频跟踪问题被看作是动态(即时间演变)优化问题。实施例采用深暹罗网络来提供关于要跟踪的参考对象的相似度函数。应用动态贝叶斯优化框架对视频的后续帧中的对象进行有效定位。贝叶斯优化框架对空间-时间信息进行编码,以用于视频中的有效对象跟踪。时间相干性(temporalcoherence)是通过使用动态、时间演变的目标函数在跟踪输出中实现的。使用高斯过程先验,对动态目标函数进行建模,表示被跟踪对象在视频的每个帧中的位置。通过利用时间相关性(temporalcorrelation),以统计原理和有效的方式查询视频帧的搜索空间,以最小化通过暹罗网络推送图像的次数。这是通过使用根据建模的动态目标函数定义的采集函数来完成的,该采集函数用于决定视频帧的搜索空间中的下一个采样位置。各种操作可以以最有助于理解所要求保护的主题本文档来自技高网
...

【技术保护点】
1.一种用于视频跟踪的计算机系统,包括:/n一个或多个处理器;/n耦合到所述一个或多个处理器的一个或多个存储器设备,所述一个或多个存储器设备包括指令,所述指令在由所述一个或多个处理器执行时,使所述计算机系统执行以下操作:/n在视频的初始帧中选择要跟踪的样本裁剪块;/n对所述视频的每个后续帧应用贝叶斯优化,以:/n基于从所述视频的当前帧的搜索空间收集的候选裁剪块的相似度分数,来使用高斯过程回归GPR建立目标函数的替代模型;以及/n使用采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置;/n使用暹罗神经网络将所述下一候选裁剪块与所述样本裁剪块进行比较;以及/n继续使用所述暹罗神经网络将新的候选裁剪块与所述样本裁剪块进行比较,直到在所述当前帧中找到所述样本裁剪块为止,其中所述新的候选裁剪块是基于更新的替代模型选择的。/n

【技术特征摘要】
20190927 US 16/586,6711.一种用于视频跟踪的计算机系统,包括:
一个或多个处理器;
耦合到所述一个或多个处理器的一个或多个存储器设备,所述一个或多个存储器设备包括指令,所述指令在由所述一个或多个处理器执行时,使所述计算机系统执行以下操作:
在视频的初始帧中选择要跟踪的样本裁剪块;
对所述视频的每个后续帧应用贝叶斯优化,以:
基于从所述视频的当前帧的搜索空间收集的候选裁剪块的相似度分数,来使用高斯过程回归GPR建立目标函数的替代模型;以及
使用采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置;
使用暹罗神经网络将所述下一候选裁剪块与所述样本裁剪块进行比较;以及
继续使用所述暹罗神经网络将新的候选裁剪块与所述样本裁剪块进行比较,直到在所述当前帧中找到所述样本裁剪块为止,其中所述新的候选裁剪块是基于更新的替代模型选择的。


2.根据权利要求1所述的计算机系统,其中,用于建立所述目标函数的替代模型的指令还包括以下指令,所述指令在由所述一个或多个处理器执行时,使所述计算机系统执行以下操作:
在所述视频的所述当前帧的所述搜索空间中获得图像的候选裁剪块;
通过使所述候选裁剪块中的每个通过所述暹罗神经网络来获得所述候选裁剪块中的每个的相似度分数;以及
使用所述候选裁剪块中的每个的每个相似度分数在所述图像上绘制图形,以对所述帧中尚未被采样的位置的相似度分数进行插值。


3.根据权利要求1所述的计算机系统,其中,用于使用所述采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置的指令还包括以下指令,所述指令在由所述一个或多个处理器执行时,使所述计算机系统执行以下操作:
将所述采集函数应用于所述搜索空间中的所述候选裁剪块中的每个,以在不使所述候选裁剪块通过暹罗神经网络的情况下,获得所述候选裁剪块的相似度分数的近似值,就像是已经使所述候选裁剪块中的每个通过了所述暹罗神经网络一样;以及
从所述搜索空间中选择具有最大采集函数结果的候选裁剪块作为所述下一候选裁剪块。


4.根据权利要求1所述的计算机系统,其中,所述采集函数包括记忆分数预期改善MS-EI采集函数。


5.根据权利要求1所述的计算机系统,其中,用于将所述下一候选裁剪块与所述样本裁剪块进行比较的指令还包括以下指令,所述指令在由所述一个或多个处理器执行时,使所述计算机系统执行以下操作:
使所述下一候选裁剪块通过所述暹罗神经网络以获得相似度分数;
用新的相似度分数更新所述替代模型;以及
找到经更新的替代模型上的最大点,以用作所述新的候选裁剪块。


6.根据权利要求1所述的计算机系统,其中,所述替代模型形成代表所述视频的每个帧中被跟踪对象的位置的山和谷的图形。


7.根据权利要求1所述的计算机系统,其中,所述暹罗神经网络被训练为通用对象相似度函数。


8.根据权利要求1所述的计算机系统,其中,所述搜索空间包括d×d网格,并且其中,所述替代模型被提供在所述d×d网格上。


9.一种用于视频跟踪的方法,包括:
在视频的初始帧中选择要跟踪的样本裁剪块;
通过以下方式对所述视频的每个后续帧应用贝叶斯优化:
基于从所述视频的当前帧的搜索空间收集的候选裁剪块的相似度分数,来使用高斯过程回归GPR建立目标函数的替代模型;以及
使用采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置;
使用暹罗神经网络将所述下一候选裁剪块与所述样本裁剪块进行比较;以及
继续使用所述暹罗神经网络将新的候选裁剪块与所述样本裁剪块进行比较,直到在所述当前帧中找到所述样本裁剪块为止,其中所述新的候选裁剪块是基于更新的替代模型选择的。


10.根据权利要求9所述的方法,其中,建立所述目标函数的替代模型还包括:
在所述视频的所述当前帧的所述搜索空间中获得图像的候选裁剪块;
通过使所述候选裁剪块中的每个通过所述暹罗神经网络来获得所述候选裁剪块中的每个的相似度分数;以及
使用所述候选裁剪块中的每个的每个相似度分数在所述图像上绘制图形,以对所述帧中尚未被采样的位置的相似度分数进行插值。


11.根据权利要求9所述的方法,其中,使用所述采集函数确定所述搜索空间中能够熟练地获得下一候选裁剪块的位置还包括:
将所述采集函数应用于所述搜索空间中的所述候选裁剪块中的每个...

【专利技术属性】
技术研发人员:安东尼·罗德斯马南·戈尔
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1