视频检索模型构建方法、装置、设备及存储介质制造方法及图纸

技术编号:38095325 阅读:17 留言:0更新日期:2023-07-06 09:09
本发明专利技术公开了一种视频检索模型构建方法、装置、设备及存储介质,属于视频检索技术领域。本发明专利技术通过从采集到的视频集中筛选出第一视频集和第二视频集;根据所述第一视频集构建视频特征提取模型;根据所述第二视频集确定视频库对应的展示视频和查询视频;根据所述视频特征提取模型、所述展示视频以及所述查询视频构建视频检索模型,通过视频特征提取模型、展示视频以及查询视频构建视频检索模型,极大地简化了模型构建过程中的预处理过程,在保证模型高精度的同时,提升了检索速度。提升了检索速度。提升了检索速度。

【技术实现步骤摘要】
视频检索模型构建方法、装置、设备及存储介质


[0001]本专利技术涉及视频检索
,尤其涉及一种视频检索模型构建方法、装置、设备及存储介质。

技术介绍

[0002]视频检索的目的是给出一个目标视频,在大量视频中找到与其最相似的结果,常用于视频信息采集、视频去重等领域。
[0003]近年来,基于更新的视频检索方法被提出,如NetVLAD、NeXtVLAD等方法,NetVLAD最初是用于位置识别中聚合空间表达,发现比常规的时间模型(LSTM/GRU)用于聚合视觉和听觉特征任务更有效、更快。NetVLAD主要的一个缺点是特征维度高,基于这种特征的大的分类模型需要几百万的参数。受ResNeXt启发,开发了新的网络结构NeXtVLAD。与NetVLAD不同的是,输入的特征在聚合及编码之前用attention分解成一组相对低纬度的向量。潜在的假设是一个视频帧可能有多个目标,在编码之前分解成帧级特征对模型产生更简单的视频表达是有益的。NeXtVLAD模型收敛更快,且能阻止过拟合。然而这些检索算法构建模型的预处理过程十分复杂,计算量庞大,无法将模型高精度和检索高速度结合起来。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0005]本专利技术的主要目的在于提供一种视频检索模型构建方法、装置、设备及存储介质,旨在解决现有技术中检索算法构建模型的预处理过程较为复杂,无法将模型高精度和检索高速度结合起来的技术问题。
[0006]为实现上述目的,本专利技术提供了一种视频检索模型构建方法,所述视频检索模型构建方法包括以下步骤:
[0007]从采集到的视频集中筛选出第一视频集和第二视频集;
[0008]根据所述第一视频集构建视频特征提取模型;
[0009]根据所述第二视频集确定视频库对应的展示视频和查询视频;
[0010]根据所述视频特征提取模型、所述展示视频以及所述查询视频构建视频检索模型。
[0011]可选地,所述从采集到的视频集中筛选出第一视频集和第二视频集,包括:
[0012]获取采集到的视频集中各个视频的视频时长;
[0013]将各个视频的视频时长分别与预设时长进行比较;
[0014]根据视频时长比较结果从视频集中筛选出第一视频集和第二视频集。
[0015]可选地,所述根据视频时长比较结果从视频集中筛选出第一视频集和第二视频集,包括:
[0016]根据视频时长比较确定视频集中视频时长大于所述预设时长的视频,以及小于或
等于所述预设时长的视频;
[0017]将视频时长大于所述预设时长的视频所组成的视频集合作为第一视频集,将视频时长小于或等于所述预设时长的视频所组成的视频集合作为第二视频集。
[0018]可选地,所述根据所述第一视频集构建视频特征提取模型,包括:
[0019]根据预设图像数据集构建预训练模型;
[0020]获取所述第一视频集对应的多个视频帧;
[0021]将多个所述视频帧输入至所述预训练模型中进行训练,得到视频特征提取模型。
[0022]可选地,所述获取所述第一视频集对应的多个视频帧,包括:
[0023]分别从所述第一视频集中的各个视频中抽取预设数量的视频帧,得到所述第一视频集对应的多个视频帧。
[0024]可选地,所述根据所述第二视频集确定视频库对应的展示视频和查询视频,包括:
[0025]将所述第二视频集中的各个视频作为视频库对应的展示视频;
[0026]从所述第二视频集中筛选出视频时长符合预设视频时长范围的多个参考视频;
[0027]按照目标时长分别从各个参考视频中随机截取视频片段;
[0028]将各个参考视频对应的视频片段作为视频库的查询视频。
[0029]可选地,所述根据所述视频特征提取模型、所述展示视频以及所述查询视频构建视频检索模型,包括:
[0030]通过所述视频特征提取模型提取所述展示视频对应的展示视频特征,以及所述查询视频对应的查询视频特征;
[0031]根据所述展示视频特征和所述查询视频特征构建视频库中各个视频对应的特征向量;
[0032]根据所述视频特征提取模型和视频库中各个视频对应的特征向量构建视频检索模型。
[0033]可选地,所述根据所述展示视频特征和所述查询视频特征构建视频库中各个视频对应的特征向量,包括:
[0034]将所述展示视频特征和所述查询视频特征进行特征融合,得到目标视频特征;
[0035]根据所述目标视频特征构建视频库中各个视频对应的预设维度的特征向量。
[0036]可选地,所述根据所述视频特征提取模型、所述展示视频以及所述查询视频构建视频检索模型之后,还包括:
[0037]通过所述视频检索模型获取待检索视频的待检索视频特征;
[0038]根据所述待检索视频特征构建所述待检索视频对应的待检索视频特征向量;
[0039]根据所述待检索视频特征向量从所述视频库查询所述待检索视频对应的目标视频。
[0040]可选地,所述根据所述待检索视频特征向量从所述视频库查询所述待检索视频对应的目标视频,包括:
[0041]获取所述视频库中各个视频对应的特征向量;
[0042]根据所述待检索视频特征向量和所述视频库对应的多个特征向量确定所述待检索视频与所述视频库中各个视频之间的视频相似度;
[0043]根据所述视频相似度从所述视频库查询所述待检索视频对应的目标视频。
[0044]可选地,所述根据所述视频相似度从所述视频库查询所述待检索视频对应的目标视频,包括:
[0045]将所述待检索视频与所述视频库中各个视频之间的视频相似度进行排序;
[0046]基于视频相似度排序结果将所述视频库中最大视频相似度对应的视频作为目标视频。
[0047]此外,为实现上述目的,本专利技术还提出一种视频检索模型构建装置,所述视频检索模型构建装置包括:
[0048]筛选模块,用于从采集到的视频集中筛选出第一视频集和第二视频集;
[0049]构建模块,用于根据所述第一视频集构建视频特征提取模型;
[0050]创建模块,用于根据所述第二视频集确定视频库对应的展示视频和查询视频;
[0051]融合模块,用于根据所述视频特征提取模型、所述展示视频以及所述查询视频构建视频检索模型。
[0052]可选地,所述筛选模块,还用于获取采集到的视频集中各个视频的视频时长;将各个视频的视频时长分别与预设时长进行比较;根据视频时长比较结果从视频集中筛选出第一视频集和第二视频集
[0053]可选地,所述筛选模块,还用于根据视频时长比较确定视频集中视频时长大于所述预设时长的视频,以及小于或等于所述预设时长的视频;将视频时长大于所述预设时长的视频所组成的视频集合作为第一视频集,将视频时长小于或等于所述预设时长的视频所组成的视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频检索模型构建方法,其特征在于,所述视频检索模型构建方法包括:从采集到的视频集中筛选出第一视频集和第二视频集;根据所述第一视频集构建视频特征提取模型;根据所述第二视频集确定视频库对应的展示视频和查询视频;根据所述视频特征提取模型、所述展示视频以及所述查询视频构建视频检索模型。2.如权利要求1所述的视频检索模型构建方法,其特征在于,所述从采集到的视频集中筛选出第一视频集和第二视频集,包括:获取采集到的视频集中各个视频的视频时长;将各个视频的视频时长分别与预设时长进行比较;根据视频时长比较结果从视频集中筛选出第一视频集和第二视频集。3.如权利要求2所述的视频检索模型构建方法,其特征在于,所述根据视频时长比较结果从视频集中筛选出第一视频集和第二视频集,包括:根据视频时长比较确定视频集中视频时长大于所述预设时长的视频,以及小于或等于所述预设时长的视频;将视频时长大于所述预设时长的视频所组成的视频集合作为第一视频集,将视频时长小于或等于所述预设时长的视频所组成的视频集合作为第二视频集。4.如权利要求1所述的视频检索模型构建方法,其特征在于,所述根据所述第一视频集构建视频特征提取模型,包括:根据预设图像数据集构建预训练模型;获取所述第一视频集对应的多个视频帧;将多个所述视频帧输入至所述预训练模型中进行训练,得到视频特征提取模型。5.如权利要求4所述的视频检索模型构建方法,其特征在于,所述获取所述第一视频集对应的多个视频帧,包括:分别从所述第一视频集中的各个视频中抽取预设数量的视频帧,得到所述第一视频集对应的多个视频帧。6.如权利要求1所述的视频检索模型构建方法,其特征在于,所述根据所述第二视频集确...

【专利技术属性】
技术研发人员:敖吉胡传锐江大山
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1