基于视频内容细粒度信息的视频时刻检索方法技术

技术编号:38219003 阅读:9 留言:0更新日期:2023-07-25 11:30
基于视频内容细粒度信息的视频时刻检索方法,包括以下步骤;步骤1,构建训练集和测试集,并选取原始视频;步骤2,对原始视频进行特征预提取,得到关键帧特征和帧内物体;步骤3,构建文本特征提取模块,使用预训练词嵌入模型来将查询语句映射到嵌入空间中,完成特征提取,并得到文本特征:步骤4,构建文本词性标注模块,标注查询语句中的名词;步骤5,构建跨模态特征融合模块,得到跨模态细粒度内容特征;步骤6,构建词义匹配模块,通过词义匹配生成相关性权重;步骤7,构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征。本发明专利技术通过目标检测网络提取视频中的细粒度信息,构建一个跨模态的检索模型,提高视频时刻检索准确性。性。性。

【技术实现步骤摘要】
基于视频内容细粒度信息的视频时刻检索方法


[0001]本专利技术属于网络检索
,具体涉及基于视频内容细粒度信息的视频时刻检索方法。

技术介绍

[0002]近些年来,文本、图像和视频等多模态数据迅速增长。用户难以有效地搜索感兴趣的信息,同时也衍生了各种各样的搜索技术。传统的搜索技术主要是单一模态内检索,例如基于关键字的检索,主要是执行单一模态内容的相似性搜索。而随着互联网技术的发展和智能手机的普及,用户对于跨模态数据检索的要求越来越高。而跨模态视频检索技术便是其中的一项关键技术,通过给定自然语言描述的查询语句,在完整的视频中确定最符合描述语句的时间片段的起止时间。跨模态视频检索除了要挖掘视频中包含的丰富的视觉、文本和语音信息,还需要确定不同模态之间的内容相似性。现阶段的跨模态视频检索技术主要可以分为两大类:基于排序的方法和基于定位的方法。
[0003]基于排序的方法的核心在于对候选片段进行排序.特点是实施简单,易于解释和理解。进一步根据产生候选片段的过程可以分为预设候选片段的方法和有指导地生成候选片段的方法。前者是在无查询语句信息的情况下,手工切分视频生成候选片段,然后按照与查询语句的相关程度对它们进行排序。后者则以查询语句或视频本身为指导,首先利用模型排除掉大多数无关的候选片段,然后再对生成的候选片段排序。有指导地生成候选片段的方法大多使用了弱监督学习或强化学习。基于定位的这类方法不以候选视频片段为处理单位,而是以整个视频为处理单位,直接以片段时间点作为预测目标。由于该任务的特别性和复杂性,目前的跨模态视频时刻检索技术仍有很大的不足,返回的结果往往不太准确,精度仍然不能让用户满意。
[0004]申请公布号为CN202011575231,名称为“基于跨模态动态卷积网络的跨模态视频时刻检索方法”的专利申请,公开了一种基于跨模态动态卷积网络的跨模态视频时刻检索方法,该方法先构建基于注意力机制的层级视频特征提取模块和文本特征提取模块的网络结构,分别提取视频和文本的特征,然后采用跨模态融合机制对两种模态的特征进行融合,最后使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索。该方法使用融合特征和文本特征来动态地生成卷积核,并使用基于跨模态卷积神经网络的时刻定位模块完成时刻检索。但该方法的不足之处在于没有充分提取视频和文本中的细粒度信息,同时无法将视频和文本中的细粒度信息匹配。从而导致检索的准确率和速度下降。
[0005]在人工进行视频时刻检索时,人们最直观确定视频内容的方法往往是对视频内物体进行分辨,同时对应上查询语句内的物体,再辨别视频中相关的动作是否与查询语句相关联,便可以大致确定查询时刻位置。这就说明查询数据中的细粒度信息,比如视频中存在哪些物体和语句描述中有哪些物体,对视频时刻检索会起到关键的作用。然而现有的很多视频时刻检索方法在处理细粒度内容时存在缺陷,往往没有很好地利用文本信息来帮助识别视频中的物体和动作。对于一个视频的描述语句,其中可能包含着一些关键词,这些关键
词能够帮助确定视频中的物体和动作以及细粒度的信息,缺乏对这些信息的利用会导致视频时刻检索模型不能更好地分辨视频内容中的信息。

技术实现思路

[0006]为了克服以上现有技术存在的问题,本专利技术的目的在于提供基于视频内容细粒度信息的视频时刻检索方法,通过目标检测网络提取视频中的细粒度信息,构建一个跨模态的检索模型,能够提高视频时刻检索准确性。
[0007]为了实现上述目的,本专利技术采用的技术方案是:
[0008]基于视频内容细粒度信息的视频时刻检索方法,包括以下步骤;
[0009]步骤1,选取Charades

STA数据集构建训练集和测试集,并选取原始视频V;
[0010]步骤2,构建视频细粒度信息提取模块,使用YOLOv5目标检测网络对原始视频V进行特征预提取,得到原始视频V的关键帧特征F
C
和帧内物体O
C

[0011]步骤3,构建文本特征提取模块,使用预训练词嵌入模型来将查询语句S映射到嵌入空间中,完成特征提取,并得到文本特征Q:
[0012]步骤4,构建文本词性标注模块,标注查询语句S中的名词H;
[0013]步骤5,构建跨模态特征融合模块,将步骤2中的视频关键帧F
C
特征和步骤3中的文本特征Q进行融合,得到跨模态细粒度内容特征F
a

[0014]步骤6,构建词义匹配模块,通过步骤2中的帧内物体O
c
和步骤4中查询语句中提取的名词H,通过词义匹配生成相关性权重Y;
[0015]步骤7,通过跨模态内容细粒度特征F
a
和相关性权重Y构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征F
A

[0016]所述步骤1中,Charades

STA数据集是基于Charades数据集进行时间标注构建的,Charades数据集包括动作种类,视频和“查询,视频片段”对;在部分视频中,需要做结构化的复杂查询,即每个查询包含至少两个子句,并且“查询,视频片段”对时间跨度小于视频长度的一半。
[0017]所述步骤2具体为:
[0018]步骤2.1,对原始视频按照间隔τ帧进行等间隔采样,视频的总帧数为T,取出的关键帧图片为其中n
c
为取出的总帧数;
[0019]步骤2.2,使用YOLOv5目标检测网络提取关键帧特征F
C
和帧内物体O
C

[0020]进一步的,步骤2.2.1,将关键帧图片C送入YOLOv5目标检测网络,主干网络采用CSPNet,通过将卷积分为两个阶段,并利用跨阶段的特征复用和信息融合减少模型的参数量和计算复杂度,提高了模型的速度和精度;通过主干网络得到19
×
19大小的特征图M1;
[0021]步骤2.2.2,将特征图M1送入自顶向下特征金字塔结构,提取强语义特征,通过上采样输出特征图M2;
[0022]步骤2.2.3,将特征图M2通过自底向上的特征金字塔结构,提取强定位特征,输出特征图M3;
[0023]步骤2.2.4,将特征图M3作为三层卷积块的检测头,通过对三个不同尺度的特征进行操作来进行目标检测任务;网络输出帧内包含的帧内物体g为帧内物体
的数量,同时在空间金字塔池化的输出得到多尺度关键帧特征F
1C
,F
2C
,和F
3C

[0024]所述步骤3具体为:
[0025]步骤3.1,使用GloVe预训练词嵌入模型将查询语句S映射到嵌入空间中,完成文本特征Q提取,文本特征Q提取的过程表示如下:
[0026][0027]其中,m为句子中的单词数量,d
q
为提取出文本特征的维度,Q为文本特征,s为具体的查询语句,q为具体的文本特征。
[0028]所述步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于视频内容细粒度信息的视频时刻检索方法,其特征在于,包括以下步骤;步骤1,选取Charades

STA数据集构建训练集和测试集,并选取原始视频V;步骤2,构建视频细粒度信息提取模块,使用YOLOv5目标检测网络对原始视频V进行特征预提取,得到原始视频V的关键帧特征F
C
和帧内物体O
C
;步骤3,构建文本特征提取模块,使用预训练词嵌入模型来将查询语句S映射到嵌入空间中,完成特征提取,并得到文本特征Q:步骤4,构建文本词性标注模块,标注查询语句S中的名词H;步骤5,构建跨模态特征融合模块,将步骤2中的视频关键帧F
C
特征和步骤3中的文本特征Q进行融合,得到跨模态细粒度内容特征F
a
;步骤6,构建词义匹配模块,通过步骤2中的帧内物体O
c
和步骤4中查询语句中提取的名词H,通过词义匹配生成相关性权重Y;步骤7,通过跨模态内容细粒度特征F
a
和相关性权重Y构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征F
A
。2.根据权利要求1所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤1中,Charades

STA数据集是基于Charades数据集进行时间标注构建的,Charades数据集包括动作种类,视频和“查询,视频片段”对;在部分视频中,需要做结构化的复杂查询,即每个查询包含至少两个子句,并且“查询,视频片段”对时间跨度小于视频长度的一半。3.根据权利要求1所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤2具体为:步骤2.1,对原始视频按照间隔τ帧进行等间隔采样,视频的总帧数为T,取出的关键帧图片为其中n
c
为取出的总帧数;步骤2.2,使用YOLOv5目标检测网络提取关键帧特征F
C
和帧内物体O
C
。4.根据权利要求3所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,步骤2.2.1,将关键帧图片C送入YOLOv5目标检测网络,主干网络采用CSPNet,通过将卷积分为两个阶段,并利用跨阶段的特征复用和信息融合减少模型的参数量和计算复杂度,提高了模型的速度和精度;通过主干网络得到特征图M1;步骤2.2.2,将特征图M1送入自顶向下特征金字塔结构,提取强语义特征,通过上采样输出特征图M2;步骤2.2.3,将特征图M2通过自底向上的特征金字塔结构,提取强定位特征,输出特征图M3;步骤2.2.4,将特征图M3作为三层卷积块的检测头,通过对三个不同尺度的特征进行操作来进行目标检测任务;网络输出帧内包含的帧内物体g为帧内物体的数量,同时在空间金字塔池化的输出得到多尺度关键帧特征和5.根据权利要求3所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤3具体为:步骤3.1,使用GloVe预训练词嵌入模型将查询语句S映射到嵌入空间中,完成文本特征Q提取,文本特征Q提取的过程表示如下:
其中,m为句子中的单词数量,d
q
为提取出文本特征的维度,Q为文本特征,s为具体的查询语句,q为具体的文本特征。6.根据权利要求5所述的基于视频内容细粒度信息的视频时刻检索方法,其特征在于,所述步骤4具体为:步骤4.1,使用NLTK将查询语句S分割为单独的单词;步骤4.2,利用NLTK构建隐马尔可夫模型,通过词形还原,...

【专利技术属性】
技术研发人员:何立火李宇航邓夏迪王笛高新波路文李洁
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1