面向目标追踪查询的视频存储管理方法及系统技术方案

技术编号:38391142 阅读:8 留言:0更新日期:2023-08-05 17:44
本发明专利技术公开了面向目标追踪查询的视频存储管理方法及系统,涉及多媒体信息存储查询技术领域,能够通过自适应的视频分块和语义索引技术,加快有关像素的取回,减少目标识别神经网络处理的像素数,从而缓解查询耗时长、能耗高的问题。取原始视频在每一帧中查找感兴趣区域;对感兴趣区域划分分块区域,任意感兴趣区域都落入且只落入一个分块区域,利用分块区域信息划分原始视频得到分块视频;分块视频编码,并建立语义索引,分块视频帧和语义索引对应存储,构建语义索引与标签的关联关系;查询时,接收查询类型标签,确定语义索引,筛选符合查询类型的视频帧作为查询结果帧,解码输出并执行目标识别和追踪操作,获得目标追踪轨迹结果。果。果。

【技术实现步骤摘要】
面向目标追踪查询的视频存储管理方法及系统


[0001]本专利技术涉及多媒体信息存储查询
,具体涉及一种面向目标追踪查询的视频存储管理方法及系统。

技术介绍

[0002]随着摄像头成本的下降,监控摄像头、行车记录仪等摄像设备的数量正在快速上升。另一方面,得益于深度学习的快速发展,近年来诞生了许多高精度的图像和视频处理算法,使得使用机器分析视频中潜在的语义信息并执行查询操作成为可能。其中,目标追踪查询是最复杂的海量视频查询任务之一,目前主流的方法是基于目标识别结果进行追踪。然而,目标识别方法往往工作在昂贵的GPU设备,且在大规模视频数据上的计算速度并不乐观。因此,亟需能够在海量视频数据上高效、低能耗执行的查询算法。
[0003]现有的针对海量视频目标追踪查询方向的研究,耗时最长的是视频解码和目标识别过程,由于视频解码和神经网络计算的耗时均与处理的像素数正相关,当像素数增加时,系统处理耗时线性增加。而视频中可能存在大量与查询无关的区域,解码并处理这些区域的像素是导致目标追踪查询系统效率低、能耗高的主要问题之一。
[0004]主流神经网络的推理速度往往与输入总像素数,即视频的宽度、高度和帧数乘积,呈正相关。现有的技术往往通过减少目标识别网络的调用次数,从而在给定误差界限内加速查询。从另一角度,削减输入的视频帧分辨率,即宽度和高度,也能加速整个查询系统的处理速度。换而言之,通过排除不包含目标的像素输入目标识别网络能够增大系统的吞吐量。
[0005]HEVC编码器提出了视频分块的概念,其通过将一个视频片段在划分为互不重叠的矩形,为视频解码引入了帧内的随机访问点。得益于同态拼接,HEVC编解码器无需重新编码即可将分块恢复为完整视频帧。因此,将目标所在的区域编码为分块,能够有效减少视频解码和神经网络推理的开销。
[0006]因此针对海量视频目标的存储管理方面,要应用HEVC编码器以及主流神经网络,查询速度慢和资源开销大的问题较为突出。

技术实现思路

[0007]有鉴于此,本专利技术提供了面向目标追踪查询的视频存储管理方法及系统,能够通过自适应的视频分块和语义索引技术,加快有关像素的取回,减少目标识别神经网络处理的像素数,从而缓解查询耗时长、能耗高的问题。
[0008]为达到上述目的,本专利技术的技术方案包括如下步骤:
[0009]取原始视频作为输入,在每一帧中查找目标可能存在的区域作为候选区域,集合所有帧中的候选区域,并将相交的候选区域进行融合,得到感兴趣区域;
[0010]利用所获得的感兴趣区域进行分块区域划分,使得任意感兴趣区域都落入且只落入一个分块区域内,利用分块区域信息对原始视频进行划分得到分块视频,并记录分块区
域信息以及是否包含感兴趣区域信息共同构成分块元信息。
[0011]对分块视频进行编码,并为分块视频中的每一帧建立语义索引,将分块视频中每一帧和语义索引对应存储,并构建语义索引与标签的关联关系。
[0012]在查询事件发生时,接收用户输入的查询类型标签,并确定查询类型标签对应的语义索引;筛选符合查询类型的分块视频帧作为查询结果帧,将查询结果帧进行解码并输出。
[0013]对输出的解码后的查询结果帧数据执行目标识别操作,并利用目标识别的结果进行目标追踪,输出目标追踪轨迹结果。
[0014]进一步地,取原始视频作为输入,在每一帧中查找目标可能存在的区域作为候选区域,集合所有帧中的候选区域,并将相交的候选区域进行融合,得到感兴趣区域,具体为:
[0015]利用前景检测分离原始视频帧中的前景像素和背景像素;若一个帧中不存在前景像素时,说明当前帧不存在候选区域;否则,同一帧中的前景像素产生数个连通域,每个连通域的外接矩形称作当前帧的一个候选区域;
[0016]原始视频由一系列连续的帧组成,独立编码帧即I帧将原始视频在时序上分割为数个分段,对于每个分段所有帧中的候选区域,将其按空间距离进行融合,即相交的候选区域合并为感兴趣区域。
[0017]进一步地,对分块视频进行编码,并为分块视频中的每一帧建立语义索引,将分块视频中每一帧和语义索引对应存储,并构建语义索引与标签的关联关系;具体为:
[0018]使用一预训练神经网络,分块视频中的帧即为分块视频帧,以分块视频帧作为预训练神经网络的输入,将预训练神经网络的输出层特征作为语义索引;将分块视频中每一帧和语义索引对应存储;针对所有分块视频帧对应的所有语义索引构成的集合,采用最远点采样算法,从语义索引集合中选择一个子集,子集中的每个语义索引记为代表向量;通过将代表向量对应的分块视频帧送入目标识别网络,输出的标签即为每个代表向量的关联标签;由此构建语义索引与标签的关联关系。
[0019]进一步地,在查询事件发生时,接收用户输入的查询类型标签,并确定查询类型标签对应的语义索引;筛选符合查询类型的分块视频帧作为查询结果帧,将查询结果帧进行解码并输出,具体为:
[0020]在查询事件发生时,接收用户输入的所需查询的视频帧编号和当前追踪目标类型标签;
[0021]当查询事件发生时,用户指定的查询类型以标签的形式给出,记为查询标签;主动由存储区域取出视频帧编号对应分块视频帧的分块元信息,过滤不包含感兴趣区域的分块区域;
[0022]从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧,剩余的分块视频帧其对应的语义索引同所有与查询标签相关联的代表向量分别计算余弦相似度;若一个语义索引与任意一个代表向量的相似度高于阈值,则说明该语义索引与当前查询类型相关,该语义索引对应的分块视频帧作为查询结果帧输出。
[0023]本专利技术另外一个实施例还提供了面向目标追踪查询的视频存储管理系统,包括感兴趣区域获取模块、分块编解码模块、语义索引管理模块、分块取回模块以及目标追踪模块。
[0024]感兴趣区域获取模块,取原始视频作为输入,在每一帧中查找目标可能存在的区域作为候选区域,集合所有帧中的候选区域,并将相交的候选区域进行融合,得到感兴趣区域;该模块利用所获得的感兴趣区域进行分块区域划分,使得任意感兴趣区域都落入且只落入一个分块区域内,利用分块区域信息对原始视频进行划分得到分块视频;
[0025]分块编解码模块,对来自感兴趣区域获取模块的分块视频进行编码操作之后送入存储区域进行存储;
[0026]语义索引模块,用于对存储区域中所有分块视频中的每一帧建立语义索引,将分块视频中每一帧和语义索引相关联存储,并构建语义索引与标签的关联关系;
[0027]目标追踪模块在查询发生时,渐进地向分块取回模块发送所需查询的视频帧编号和当前追踪目标类型标签;
[0028]分块取回模块用于在查询发生时,从目标追踪模块接收所需查询的视频帧编号和当前追踪目标类型标签;分块取回模块主动由存储区域取出视频帧编号对应分块视频帧的分块元信息,过滤不包含感兴趣区域的分块区域,然后调用语义索引管理模块从剩余的分块区域内过滤不包含当前追踪目标类型的分块视频帧;然本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.面向目标追踪查询的视频存储管理方法,其特征在于,包括如下步骤:取原始视频作为输入,在每一帧中查找目标可能存在的区域作为候选区域,集合所有帧中的候选区域,并将相交的候选区域进行融合,得到感兴趣区域;利用所获得的感兴趣区域进行分块区域划分,使得任意感兴趣区域都落入且只落入一个分块区域内,利用分块区域信息对原始视频进行划分得到分块视频,并记录分块区域信息以及是否包含感兴趣区域信息共同构成分块元信息;对所述分块视频进行编码,并为分块视频中的每一帧建立语义索引,将分块视频中每一帧和语义索引对应存储,并构建语义索引与标签的关联关系;在查询事件发生时,接收用户输入的查询类型标签,并确定查询类型标签对应的语义索引;筛选符合查询类型的分块视频帧作为查询结果帧,将查询结果帧进行解码并输出;对输出的解码后的查询结果帧数据执行目标识别操作,并利用目标识别的结果进行目标追踪,输出目标追踪轨迹结果。2.如权利要求1所述的面向目标追踪查询的视频存储管理方法,其特征在于,所述取原始视频作为输入,在每一帧中查找目标可能存在的区域作为候选区域,集合所有帧中的候选区域,并将相交的候选区域进行融合,得到感兴趣区域,具体为:利用前景检测分离原始视频帧中的前景像素和背景像素;若一个帧中不存在前景像素时,说明当前帧不存在候选区域;否则,同一帧中的前景像素产生数个连通域,每个连通域的外接矩形称作当前帧的一个候选区域;所述原始视频由一系列连续的帧组成,独立编码帧即I帧将所述原始视频在时序上分割为数个分段,对于每个分段所有帧中的候选区域,将其按空间距离进行融合,即相交的候选区域合并为感兴趣区域。3.如权利要求1或2所述的面向目标追踪查询的视频存储管理方法,其特征在于,对所述分块视频进行编码,并为分块视频中的每一帧建立语义索引,将分块视频中每一帧和语义索引对应存储,并构建语义索引与标签的关联关系;具体为:使用一预训练神经网络,所述分块视频中的帧即为分块视频帧,以分块视频帧作为预训练神经网络的输入,将所述预训练神经网络的输出层特征作为语义索引;将分块视频中每一帧和语义索引对应存储;针对所有分块视频帧对应的所有语义索引构成的集合,采用最远点采样算法,从语义索引集合中选择一个子集,子集中的每个语义索引记为代表向量;通过将代表向量对应的分块视频帧送入目标识别网络,输出的标签即为每个代表向量的关联标签;由此构建语义索引与标签的关联关系。4.如权利要求3所述的面向目标追踪查询的视频存储管理方法,其特征在于,所述在查询事件发生时,接收用户输入的查询类型标签,并确定查询类型标签对应的语义索引;筛选符合查询类型的分块视频帧作为查询结果帧,将查询结果帧进行解码并输出,具体为:在查询事件发生时,接收用户输入的所需查询的视频帧编号和当前追踪目标类型标签;当查询事件发生时,用户指定的查询类型以标签的形式给出,记为查询标签;主动由存储区域取出视频帧编号对应分块视频帧的分块元信息,过滤不包含感兴趣区域的分块区域;
从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧,剩余的分块视频帧其对应的语义索引同所有与查询标签相关联的代表向量分别计算余弦相似度;若一个语义索引与任意一个代表向量的相似度高于阈值,则说明该语义索引与当前查询类型相关,该语义索引对应的分块视频帧作为查询结果帧输出。5.面向目标追踪查询的视频存储管理系统,其特征在于,包括感兴趣区域获取模块、分块编解码模块、语义索引管理模块、分块取回模块以及目标追踪模块;所述感兴趣区域获取模块,取原始视频作为输入,在每一帧中查找目标可能存在的区域作为候选区域,集合所有帧中的候选区域,并将相交的候选区域进行融合,得到感兴趣区域;该模块利用所获得的感兴趣区域进行分块区域划分,使得任意感兴趣区域都落入且只落入一个分块区域内,利用分块区域信息对原始视频进行划分得到分块视频;所述分块编解码模块,对来自感兴趣区域获取模块的所述分块视频进行编码操作之后送入存储区域进行存储;所...

【专利技术属性】
技术研发人员:钟天雄张志威赵帅王国仁
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1