视频中跟踪对象的定位方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35291542 阅读:38 留言:0更新日期:2022-10-22 12:37
本发明专利技术提供一种视频中跟踪对象的定位方法、装置、电子设备及存储介质,方法包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。该方法用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。进行有效且准确定位。进行有效且准确定位。

【技术实现步骤摘要】
视频中跟踪对象的定位方法、装置、电子设备及存储介质


[0001]本专利技术涉及图像识别
,尤其涉及一种视频中跟踪对象的定位方法、装置、电子设备及存储介质。

技术介绍

[0002]随着科学技术的发展,图像识别技术变得越来越成熟。电子设备对图像中的跟踪对象进行定位时,通常利用指代表达理解,即根据自然语言描述语句对静态的跟踪对象进行定位,然而,该方法无法定位复杂且动态的跟踪对象进,也即,无法对视频中的跟踪对象进行定位。
[0003]现有的对视频中的跟踪对象进行定位的方法可包括:电子设备基于目标跟踪框架的视频

自然语言指代表达理解模型对跟踪对象进行定位,或,该电子设备基于一阶段物体检测的视频

自然语言指代表达理解模型对跟踪对象进行定位。然而,由于上述两种模型具有相应的局限性,导致该电子设备无法对视频中的跟踪对象进行准确定位。

技术实现思路

[0004]本专利技术提供一种视频中跟踪对象的定位方法、装置、电子设备及存储介质,用以解决现有技术中由于现有定位模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
[0005]本专利技术提供一种视频中跟踪对象的定位方法,包括:
[0006]在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;r/>[0007]根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;
[0008]根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
[0009]根据本专利技术提供的一种视频中跟踪对象的定位方法,该获取该当前帧图像对应的当前图像特征,包括:获取该待处理视频中关键帧图像对应的第一图像特征,该关键帧图像为该待处理视频中每一帧图像中的任一帧图像;获取该关键帧图像的相邻帧图像对应的第二图像特征;根据该第一图像特征及该第二图像特征,基于预设的帧密集特征聚合网络,得到该当前帧图像对应的当前图像特征。
[0010]根据本专利技术提供的一种视频中跟踪对象的定位方法,该根据该第一图像特征及该第二图像特征,基于预设的帧密集特征聚合网络,得到该当前帧图像对应的当前图像特征,包括:基于预设的帧密集特征聚合网络,根据该第一图像特征及该第二图像特征,得到归一化权重矩阵;根据该第一图像特征和该归一化权重矩阵,确定该当前帧图像对应的当前图像特征。
[0011]根据本专利技术提供的一种视频中跟踪对象的定位方法,该根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征,包括:根据该当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征;根据该当前语言特征及该视觉向量特征,基于该预设的共享图像主干网络,得到第一相似度矩阵;根据该当前语言特征及该视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵;根据该当前语言特征和该第一相似度矩阵,确定该当前帧图像对应的融合图像特征;根据该视觉特征向量和该第二相似度矩阵,确定该当前帧图像对应的融合语言特征。
[0012]根据本专利技术提供的一种视频中跟踪对象的定位方法,在该根据该当前语言特征及该视觉向量特征,基于该预设的共享图像主干网络,得到第一相似度矩阵之后,该方法还包括:获取该跟踪对象在该当前图像特征中所对应的候选位置;根据该候选位置,向该第一相似度矩阵添加第一约束函数。
[0013]根据本专利技术提供的一种视频中跟踪对象的定位方法,该根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果,包括:根据该融合语言特征,确定语言表达句子特征;根据该语音表达句子特征,确定第一语言条件向量和第二语音条件向量;根据该融合图像特征、该第一语言条件向量和该第二语音条件向量,确定该跟踪对象的定位结果。
[0014]根据本专利技术提供的一种视频中跟踪对象的定位方法,该方法还包括:获取该第一相似度矩阵对应的第一约束函数及该第二相似度矩阵对应的第二约束函数;根据该第一约束函数和该第二约束函数,确定该预设的共享主干网络对应的定位回归损失函数;根据该定位回归损失函数,确定该预设的共享主干网络对应的总损失函数。
[0015]本专利技术还提供一种定位装置,包括:
[0016]获取模块,用于在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;
[0017]确定模块,用于根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,得到该当前帧图像对应的融合图像特征及融合语言特征;根据该融合图像特征及该融合语言特征,确定该跟踪对象的定位结果。
[0018]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述视频中跟踪对象的定位方法。
[0019]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述视频中跟踪对象的定位方法。
[0020]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述视频中跟踪对象的定位方法。
[0021]本专利技术提供的视频中跟踪对象的定位方法、装置、电子设备及存储介质,该方法可以包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取该当前帧图像对应的当前图像特征及当前语言特征;然后,根据该当前图像特征及该当前语言特征,基于预设的共享主干网络,可得到该当前帧图像对应的较为准确的融合图像特征及融合语言特征;最后,根据该融合图像特征及该融合语言特征,准确确定该跟踪对象的定位结果,从而实现对待处理视频中的跟踪对象进行准确定位。该方法用以解决现有技术中由于现有定位
模型具有相应的局限性,导致电子设备基于该现有定位模型,无法对视频中的跟踪对象进行准确定位的缺陷,实现电子设备基于预设的共享主干网络,结合视频帧图像的图像特征和语言特征,对待处理视频中的跟踪对象进行有效且准确定位。
附图说明
[0022]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023]图1是本专利技术提供的视频中跟踪对象的定位方法的流程示意图之一;
[0024]图2是本专利技术提供的视频中跟踪对象的定位方法的流程示意图之二;
[0025]图3本专利技术提供的视频中跟踪对象的定位方法的流程示意图之三;
[0026]图4本专利技术提供的定位装置的结构示意图;
[0027]图5本专利技术提供的电子设本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频中跟踪对象的定位方法,其特征在于,包括:在对待处理视频中当前帧图像的跟踪对象进行定位的过程中,获取所述当前帧图像对应的当前图像特征及当前语言特征;根据所述当前图像特征及所述当前语言特征,基于预设的共享主干网络,得到所述当前帧图像对应的融合图像特征及融合语言特征;根据所述融合图像特征及所述融合语言特征,确定所述跟踪对象的定位结果。2.根据权利要求1所述的定位方法,其特征在于,所述获取所述当前帧图像对应的当前图像特征,包括:获取所述待处理视频中关键帧图像对应的第一图像特征,所述关键帧图像为所述待处理视频中每一帧图像中的任一帧图像;获取所述关键帧图像的相邻帧图像对应的第二图像特征;根据所述第一图像特征及所述第二图像特征,基于预设的帧密集特征聚合网络,得到所述当前帧图像对应的当前图像特征。3.根据权利要求2所述的定位方法,其特征在于,所述根据所述第一图像特征及所述第二图像特征,基于预设的帧密集特征聚合网络,得到所述当前帧图像对应的当前图像特征,包括:基于预设的帧密集特征聚合网络,根据所述第一图像特征及所述第二图像特征,得到归一化权重矩阵;根据所述第一图像特征和所述归一化权重矩阵,确定所述当前帧图像对应的当前图像特征。4.根据权利要求1

3中任一项所述的定位方法,其特征在于,所述根据所述当前图像特征及所述当前语言特征,基于预设的共享主干网络,得到所述当前帧图像对应的融合图像特征及融合语言特征,包括:根据所述当前图像特征,基于预设的共享图像主干网络,得到视觉向量特征;根据所述当前语言特征及所述视觉向量特征,基于所述预设的共享图像主干网络,得到第一相似度矩阵;根据所述当前语言特征及所述视觉向量特征,基于预设的共享语言主干网络,得到第二相似度矩阵;根据所述当前语言特征和所述第一相似度矩阵,确定所述当前帧图像对应的融合图像特征;根据所述视觉特征向量和所述第二相似度矩阵,确定所述当前帧图像对应的...

【专利技术属性】
技术研发人员:张宇佳李钱钟孙世颖赵晓光
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1