多粒度视频检索方法及装置制造方法及图纸

技术编号:39718988 阅读:9 留言:0更新日期:2023-12-17 23:25
本申请实施例提出一种多粒度视频检索方法及装置,属于跨模态内容检索领域,通过该检索算法,基于待查询文本的句子级文本特征

【技术实现步骤摘要】
多粒度视频检索方法及装置


[0001]本申请涉及跨模态内容检索领域,具体而言,涉及一种多粒度视频检索方法及装置


技术介绍

[0002]随着互联网技术的发展,视频逐渐成为一种主流的信息媒介,视频数据的产生和消费呈现出爆炸式的增长,在这样的背景下,如何有效地从海量视频中检索出用户感兴趣的内容,成为了一个重要而具有挑战性的问题

[0003]目前,常用的视频检索方式包括:
(

)
基于文本的视频检索;
(

)
关注于视频检索和视频片段检索

第一种检索方式是对于给定的自然语言文本,从视频库中检索出与之语义相关的视频

第二种检索方式是分阶段实现视频检索和片段检索

然而这些方法均存在检索召回的效果上限低的问题


技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种多粒度视频检索方法及装置,其在实现视频级检索和片段级检索的同时,能够提高检索召回率和对视频中目标片段的定位精度

[0005]为了实现上述目的,本申请实施例采用的技术方案如下:
[0006]第一方面,本申请实施例提供一种多粒度视频检索方法,所述方法包括:
[0007]对待查询文本进行处理,得到所述待查询文本对应的句子级文本特征;
[0008]获取视频库中每个视频数据的特征信息;其中,所述特征信息包括粗粒度视频特征和细粒度视频特征,所述粗粒度视频特征为对所述细粒度视频特征进行下采样得到;
[0009]将所述句子级文本特征输入预先训练的检索算法;
[0010]通过所述检索算法,基于所述句子级文本特征和所述特征信息,进行多中心和多尺度的双分支协同特征处理,得到所述待查询文本与每个所述视频数据间的相似度数据;其中,所述相似度数据包括粗粒度相似度和细粒度相似度;
[0011]根据所述相似度数据,得到检索结果;其中,所述检索结果包括视频级检索对应的整体级视频和片段级检索对应的片段级视频

[0012]在一种可能的实施方式中,所述检索算法包括浏览分支和凝视分支;
[0013]所述通过所述检索算法,基于所述句子级文本特征和所述特征信息,进行多中心和多尺度的双分支协同特征处理,得到所述待查询文本与每个所述视频数据间的相似度数据的步骤,包括:
[0014]通过所述浏览分支,基于选取的多个中心点和多个尺度,构建每个所述视频数据的多个粗粒度候选片段,并结合所述粗粒度视频特征和所述句子级文本特征,从所述多个粗粒度候选片段中得到粗粒度最优片段,并计算出所述待查询文本与每个所述视频数据间的粗粒度相似度;
[0015]通过所述凝视分支,按照所述粗粒度最优片段的中心点和多个尺度,构建每个所
述视频数据的多个细粒度候选片段,并结合所述细粒度视频特征和所述句子级文本特征,从所述多个细粒度候选片段中得到细粒度最优片段,并计算出所述待查询文本与每个所述视频数据间的细粒度相似度

[0016]在一种可能的实施方式中,所述方法还包括训练得到检索算法的步骤,包括:
[0017]对训练数据集中的每个样本对进行处理,得到每个所述样本对中的查询文本样本对应的句子级文本特征,以及每个所述样本对中的视频样本的帧级特征;其中,所述样本对中的查询文本样本为对所述样本对中的视频样本的片段的自然语言描述;
[0018]从所述训练数据集中选取预设数量个样本对作为训练样本,并将每个所述训练样本对输入初始检索算法;其中,所述初始检索算法包括初始
Transformer
模型

初始浏览分支和初始凝视分支,所述训练样本对包括训练视频和训练查询文本;
[0019]基于所述初始
Transformer
模型,对所述帧级特征进行处理,得到细粒度视频样本特征和粗粒度视频样本特征;
[0020]通过所述初始浏览分支,基于多个中心点和多个尺度,构建所述训练视频的多个粗粒度样本候选片段,并结合所述训练样本对的粗粒度视频样本特征和句子级文本特征,从所述多个粗粒度样本候选片段中得到粗粒度样本最优片段,并计算出所述训练视频与所述训练查询文本间的粗粒度相似度;
[0021]通过所述初始凝视分支,按照所述粗粒度样本最优片段的中心点和多个尺度,构建所述训练视频的多个细粒度样本候选片段,并结合所述训练样本对的细粒度视频样本特征和句子级文本特征,从所述多个细粒度样本候选片段中得到细粒度样本最优片段,并计算出所述训练视频与所述训练查询文本间的细粒度相似度;
[0022]基于所述粗粒度相似度和所述细粒度相似度,结合所有所述训练样本中的训练视频,计算关于粗粒度的第一对比学习损失和关于细粒度的第二对比学习损失;
[0023]结合所述第一对比学习损失和第二对比学习损失,得到混合协同对比学习损失,基于所述混合协同对比学习损失,采用优化算法对所述初始检索算法的参数进行更新,以得到成熟的检索算法

[0024]在一种可能的实施方式中,所述结合所述训练样本对的粗粒度视频样本特征和句子级文本特征,从所述多个粗粒度样本候选片段中得到粗粒度样本最优片段,并计算出所述训练视频与所述训练查询文本间的粗粒度相似度的步骤,包括:
[0025]针对每个所述粗粒度样本候选片段,结合所述粗粒度视频样本特征以及所述粗粒度样本候选片段的中心点和宽度,进行高斯加权池化聚合,得到所述粗粒度样本候选片段的片段特征;
[0026]基于所述句子级文本特征和所述片段特征,计算出每个所述粗粒度样本候选片段与所述训练查询文本间的余弦相似度,将所述余弦相似度最大的粗粒度样本候选片段作为粗粒度样本最优片段,并将所述粗粒度样本最优片段的余弦相似度作为所述训练视频与所述训练查询文本间的粗粒度相似度

[0027]在一种可能的实施方式中,所述结合所述训练样本对的细粒度视频样本特征和句子级文本特征,从所述多个细粒度样本候选片段中得到细粒度样本最优片段,并计算出所述训练视频与所述训练查询文本间的细粒度相似度的步骤,包括:
[0028]针对每个所述细粒度样本候选片段,结合所述细粒度视频样本特征以及所述细粒
度样本候选片段的中心点和宽度,进行高斯加权池化聚合,得到所述细粒度样本候选片段的片段特征;
[0029]基于所述句子级文本特征和所述片段特征,计算出每个所述细粒度样本候选片段与所述训练查询文本间的余弦相似度,将所述余弦相似度最大的细粒度样本候选片段作为细粒度样本最优片段,并将所述细粒度样本最优片段的余弦相似度作为所述训练视频与所述训练查询文本间的细粒度相似度

[0030]在一种可能的实施方式中,所述基于所述粗粒度相似度和所述细粒度相似度,结合所有所述训练样本中的训练视频,计算关于粗粒度的第一对比学习损失和关于细粒度的第二对比学习损失的步骤,包括:...

【技术保护点】

【技术特征摘要】
1.
一种多粒度视频检索方法,其特征在于,所述方法包括:对待查询文本进行处理,得到所述待查询文本对应的句子级文本特征;获取视频库中每个视频数据的特征信息;其中,所述特征信息包括粗粒度视频特征和细粒度视频特征,所述粗粒度视频特征为对所述细粒度视频特征进行下采样得到;将所述句子级文本特征输入预先训练的检索算法;通过所述检索算法,基于所述句子级文本特征和所述特征信息,进行多中心和多尺度的双分支协同特征处理,得到所述待查询文本与每个所述视频数据间的相似度数据;其中,所述相似度数据包括粗粒度相似度和细粒度相似度;根据所述相似度数据,得到检索结果;其中,所述检索结果包括视频级检索对应的整体级视频和片段级检索对应的片段级视频
。2.
根据权利要求1所述的多粒度视频检索方法,其特征在于,所述检索算法包括浏览分支和凝视分支;所述通过所述检索算法,基于所述句子级文本特征和所述特征信息,进行多中心和多尺度的双分支协同特征处理,得到所述待查询文本与每个所述视频数据间的相似度数据的步骤,包括:通过所述浏览分支,基于选取的多个中心点和多个尺度,构建每个所述视频数据的多个粗粒度候选片段,并结合所述粗粒度视频特征和所述句子级文本特征,从所述多个粗粒度候选片段中得到粗粒度最优片段,并计算出所述待查询文本与每个所述视频数据间的粗粒度相似度;通过所述凝视分支,按照所述粗粒度最优片段的中心点和多个尺度,构建每个所述视频数据的多个细粒度候选片段,并结合所述细粒度视频特征和所述句子级文本特征,从所述多个细粒度候选片段中得到细粒度最优片段,并计算出所述待查询文本与每个所述视频数据间的细粒度相似度
。3.
根据权利要求1或2所述的多粒度视频检索方法,其特征在于,所述方法还包括训练得到检索算法的步骤,包括:对训练数据集中的每个样本对进行处理,得到每个所述样本对中的查询文本样本对应的句子级文本特征,以及每个所述样本对中的视频样本的帧级特征;其中,所述样本对中的查询文本样本为对所述样本对中的视频样本的片段的自然语言描述;从所述训练数据集中选取预设数量个样本对作为训练样本,并将每个所述训练样本对输入初始检索算法;其中,所述初始检索算法包括初始
Transformer
模型

初始浏览分支和初始凝视分支,所述训练样本对包括训练视频和训练查询文本;基于所述初始
Transformer
模型,对所述帧级特征进行处理,得到细粒度视频样本特征和粗粒度视频样本特征;通过所述初始浏览分支,基于多个中心点和多个尺度,构建所述训练视频的多个粗粒度样本候选片段,并结合所述训练样本对的粗粒度视频样本特征和句子级文本特征,从所述多个粗粒度样本候选片段中得到粗粒度样本最优片段,并计算出所述训练视频与所述训练查询文本间的粗粒度相似度;通过所述初始凝视分支,按照所述粗粒度样本最优片段的中心点和多个尺度,构建所述训练视频的多个细粒度样本候选片段,并结合所述训练样本对的细粒度视频样本特征和
句子级文本特征,从所述多个细粒度样本候选片段中得到细粒度样本最优片段,并计算出所述训练视频与所述训练查询文本间的细粒度相似度;基于所述粗粒度相似度和所述细粒度相似度,结合所有所述训练样本中的训练视频,计算关于粗粒度的第一对比学习损失和关于细粒度的第二对比学习损失;结合所述第一对比学习损失和第二对比学习损失,得到混合协同对比学习损失,基于所述混合协同对比学习损失,采用优化算法对所述初始检索算法的参数进行更新,以得到成熟的检索算法
。4.
根据权利要求3所述的多粒度视频检索方法,其特征在于,所述结合所述训练样本对的粗粒度视频样本特征和句子级文本特征,从所述多个粗粒度样本候选片段中得到粗粒度样本最优片段,并计算出所述训练视频与所述训练查询文本间的粗粒度相似度的步骤,包括:针对每个所述粗粒度样本候选片段,结合所述粗粒度视频样本特征以及所述粗粒度样本候选片段的中心点和宽度,进行高斯加权池化聚合,得到所述粗粒度样本候选片段的片段特征;基于所述句子级文本特征和所述片段特征,计算出每个所述粗粒度样本候选片段与所述训练查询文本间的余弦相似度,将所述余弦相似度最大的粗粒度样本候选片段作为粗粒度样本最优片段,并将所述粗粒度样本最优片段的余弦相似度作为所述训练视频与所述训练查询文本间的粗粒度相似度<...

【专利技术属性】
技术研发人员:陈智国蒋寻朱利卿徐行汪政杨阳
申请(专利权)人:电子科技大学广东电子信息工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1