基于语言描述的视频目标跟踪方法技术

技术编号:41535116 阅读:34 留言:0更新日期:2024-06-03 23:12
本发明专利技术公开了一种基于语言描述的视频目标跟踪方法,包括:设置引导的定位模块,获取视频的第一帧作为输入图像,从输入图像中提取图像特征,从输入文本中提取语言特征,将图像特征和语言特征进行融合,获得对象的预测边界框;采用获得的预测边界框初始化目标跟踪器;通过目标跟踪器对后续视频帧进行跟踪,获得后续每一帧的跟踪结果;设置基于记忆的选择器模型,对后续每一帧的跟踪结果进行评估得分,当得分低于阈值时,将对应帧作为视频的第一帧,重复上述过程,实现对目标的持续跟踪。本发明专利技术公开的基于语言描述的视频目标跟踪方法,较为显著的提高了跟踪精度。

【技术实现步骤摘要】

本专利技术涉及一种基于语言描述的视频目标跟踪方法,属于计算机视觉。


技术介绍

1、tnl(自然语言跟踪)是一种根据自然语言描述来定位视频中目标的方法,主要目标是使用自然语言描述作为引导,在视频序列中跟踪相应的目标。自然语言描述比边界框更实际,因为它们可以提供更多的细节,以避免在相似对象之间产生歧义,并且更用户友好,可以在用户和跟踪系统之间提供直观的沟通。

2、tnl通常由三个阶段组成:对象定位、对象跟踪和模块切换,其中对象定位负责根据第一帧中的自然语言进行初始目标定位;对象跟踪基于第一帧的初始定位进行跟踪;模块切换使用时间内存来评估基于跟踪结果的置信度分数,并确定是否需要切换到重新初始化跟踪器的对象定位。

3、在这三个过程中,关键阶段是对象定位和模块切换。对象定位根据自然语言定位对象,定位结果作为后续跟踪的模板。如果对象定位表现不佳,定位错误目标,它可能会严重影响目标跟踪的有效性。模块切换的目标是基于时间内存准确地从目标跟踪器切换到视觉定位,这允许在目标跟踪器出现显著偏差时基于自然语言重新定位。

4、现有的tnl方法忽略本文档来自技高网...

【技术保护点】

1.一种基于语言描述的视频目标跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语言描述的视频目标跟踪方法,其特征在于,

3.根据权利要求2所述的基于语言描述的视频目标跟踪方法,其特征在于,

4.根据权利要求3所述的基于语言描述的视频目标跟踪方法,其特征在于,

5.根据权利要求3所述的基于语言描述的视频目标跟踪方法,其特征在于,

6.根据权利要求1所述的基于语言描述的视频目标跟踪方法,其特征在于,

7.根据权利要求6所述的基于语言描述的视频目标跟踪方法,其特征在于,

8.根据权利要求6所述...

【技术特征摘要】

1.一种基于语言描述的视频目标跟踪方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于语言描述的视频目标跟踪方法,其特征在于,

3.根据权利要求2所述的基于语言描述的视频目标跟踪方法,其特征在于,

4.根据权利要求3所述的基于语言描述的视频目标跟踪方法,其特征在于,

5.根据权利要求3所述的基于语言描述的视频目标跟踪方法,其特征在于,

6...

【专利技术属性】
技术研发人员:李国荣李衡佑卿来云黄庆明
申请(专利权)人:中国科学院大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1