基于视频内容细粒度信息的视频时刻检索方法技术

技术编号：38219003 阅读：9 留言：0更新日期：2023-07-25 11:30

基于视频内容细粒度信息的视频时刻检索方法，包括以下步骤；步骤1，构建训练集和测试集，并选取原始视频；步骤2，对原始视频进行特征预提取，得到关键帧特征和帧内物体；步骤3，构建文本特征提取模块，使用预训练词嵌入模型来将查询语句映射到嵌入空间中，完成特征提取，并得到文本特征：步骤4，构建文本词性标注模块，标注查询语句中的名词；步骤5，构建跨模态特征融合模块，得到跨模态细粒度内容特征；步骤6，构建词义匹配模块，通过词义匹配生成相关性权重；步骤7，构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征。本发明专利技术通过目标检测网络提取视频中的细粒度信息，构建一个跨模态的检索模型，提高视频时刻检索准确性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
基于视频内容细粒度信息的视频时刻检索方法

[0001]本专利技术属于网络检索
，具体涉及基于视频内容细粒度信息的视频时刻检索方法。

技术介绍

[0002]近些年来，文本、图像和视频等多模态数据迅速增长。用户难以有效地搜索感兴趣的信息，同时也衍生了各种各样的搜索技术。传统的搜索技术主要是单一模态内检索，例如基于关键字的检索，主要是执行单一模态内容的相似性搜索。而随着互联网技术的发展和智能手机的普及，用户对于跨模态数据检索的要求越来越高。而跨模态视频检索技术便是其中的一项关键技术，通过给定自然语言描述的查询语句，在完整的视频中确定最符合描述语句的时间片段的起止时间。跨模态视频检索除了要挖掘视频中包含的丰富的视觉、文本和语音信息，还需要确定不同模态之间的内容相似性。现阶段的跨模态视频检索技术主要可以分为两大类：基于排序的方法和基于定位的方法。
[0003]基于排序的方法的核心在于对候选片段进行排序.特点是实施简单,易于解释和理解。进一步根据产生候选片段的过程可以分为预设候选片段的方法和有指导地生成候选片段的方法。前者是在无查询语句信息的情况下，手工切分视频生成候选片段,然后按照与查询语句的相关程度对它们进行排序。后者则以查询语句或视频本身为指导,首先利用模型排除掉大多数无关的候选片段,然后再对生成的候选片段排序。有指导地生成候选片段的方法大多使用了弱监督学习或强化学习。基于定位的这类方法不以候选视频片段为处理单位,而是以整个视频为处理单位，直接以片段时间点作为预测目标。由于该任务的特别性和复杂性，目前的跨模态...

【技术保护点】

【技术特征摘要】
1.基于视频内容细粒度信息的视频时刻检索方法，其特征在于，包括以下步骤；步骤1，选取Charades
‑
STA数据集构建训练集和测试集，并选取原始视频V；步骤2，构建视频细粒度信息提取模块，使用YOLOv5目标检测网络对原始视频V进行特征预提取，得到原始视频V的关键帧特征F
C
和帧内物体O
C
；步骤3，构建文本特征提取模块，使用预训练词嵌入模型来将查询语句S映射到嵌入空间中，完成特征提取，并得到文本特征Q：步骤4，构建文本词性标注模块，标注查询语句S中的名词H；步骤5，构建跨模态特征融合模块，将步骤2中的视频关键帧F
C
特征和步骤3中的文本特征Q进行融合，得到跨模态细粒度内容特征F
a
；步骤6，构建词义匹配模块，通过步骤2中的帧内物体O
c
和步骤4中查询语句中提取的名词H，通过词义匹配生成相关性权重Y；步骤7，通过跨模态内容细粒度特征F
a
和相关性权重Y构建时刻检索指导模块计算整个视频对应的相关性内容细粒度特征F
A
。2.根据权利要求1所述的基于视频内容细粒度信息的视频时刻检索方法，其特征在于，所述步骤1中，Charades
‑
STA数据集是基于Charades数据集进行时间标注构建的，Charades数据集包括动作种类，视频和“查询，视频片段”对；在部分视频中，需要做结构化的复杂查询，即每个查询包含至少两个子句，并且“查询，视频片段”对时间跨度小于视频长度的一半。3.根据权利要求1所述的基于视频内容细粒度信息的视频时刻检索方法，其特征在于，所述步骤2具体为：步骤2.1，对原始视频按照间隔τ帧进行等间隔采样，视频的总帧数为T，取出的关键帧图片为其中n
c
为取出的总帧数；步骤2.2，使用YOLOv5目标检测网络提取关键帧特征F
C
和帧内物体O
C
。4.根据权利要求3所述的基于视频内容细粒度信息的视频时刻检索方法，其特征在于，步骤2.2.1，将关键帧图片C送入YOLOv5目标检测网络，主干网络采用CSPNet，通过将卷积分为两个阶段，并利用跨阶段的特征复用和信息融合减少模型的参数量和计算复杂度，提高了模型的速度和精度；通过主干网络得到特征图M1；步骤2.2.2，将特征图M1送入自顶向下特征金字塔结构，提取强语义特征，通过上采样输出特征图M2；步骤2.2.3，将特征图M2通过自底向上的特征金字塔结构，提取强定位特征，输出特征图M3；步骤2.2.4，将特征图M3作为三层卷积块的检测头，通过对三个不同尺度的特征进行操作来进行目标检测任务；网络输出帧内包含的帧内物体g为帧内物体的数量，同时在空间金字塔池化的输出得到多尺度关键帧特征和5.根据权利要求3所述的基于视频内容细粒度信息的视频时刻检索方法，其特征在于，所述步骤3具体为：步骤3.1，使用GloVe预训练词嵌入模型将查询语句S映射到嵌入空间中，完成文本特征Q提取，文本特征Q提取的过程表示如下：
其中，m为句子中的单词数量，d
q
为提取出文本特征的维度，Q为文本特征,s为具体的查询语句，q为具体的文本特征。6.根据权利要求5所述的基于视频内容细粒度信息的视频时刻检索方法，其特征在于，所述步骤4具体为：步骤4.1，使用NLTK将查询语句S分割为单独的单词；步骤4.2，利用NLTK构建隐马尔可夫模型，通过词形还原，...

【专利技术属性】
技术研发人员：何立火，李宇航，邓夏迪，王笛，高新波，路文，李洁，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人