【技术实现步骤摘要】
一种基于时空域信息交互的视频时刻检索方法
[0001]本专利技术涉及视频时刻检索
,具体涉及一种基于时空域信息交互的视频时刻检索方法。
技术介绍
[0002]目前主流的跨模态视频时刻检索方法主要可以分为早期的基于两阶段匹配的方法、单阶段方法、基于强化学习的方法和最新的基于弱监督指导的方法。早期的两阶段方法会先对整个视频进行处理,通过滑动窗口策略或候选生成网络将整个视频预处理成多个候选片段,然后通过跨模态匹配模块对生成的候选片段进行排名来得出对应的时间结果。因为候选片段的重叠冗余部分过多影响计算效率,一些研究工作开始尝试使用单阶段方法来解决视频时刻检索任务。单阶段方法不依赖于任何候选片段的生成过程,在基于锚框的单阶段方法中,会使用长短期记忆网络或卷积神经网络对每个时间步长的多尺度候选片段进行选定。在无锚框的单阶段方法中,会对每个视频单元,如视频帧或帧片段剪辑进行预测,来获知其作为目标片段的起点和终点的概率,或者直接基于多模态特征回归得到目标起点和终点的坐标。除此之外,有一些工作使用强化学习来解决视频时刻检索问题,这些工作 ...
【技术保护点】
【技术特征摘要】
1.一种基于时空域信息交互的视频时刻检索系统,其特征在于,包括特征预提取模块、多尺度特征交互模块、时空域信息融合模块和时刻定位模块;所述特征预提取模块用于提取视频特征和文本特征;所述多尺度特征交互模块用于所述视频特征和文本特征的多尺度提取与融合,生成包含不同尺度下的视觉信息和不同层级的文本信息的多尺度交互特征;所述时空域信息融合模块用于多尺度交互特征与文本特征在时空域的信息融合,生成时空域信息特征,深度编码视频在时间和空间维度上的多种信息;所述时刻定位模块用于得到最终的定位结果,完成跨模态视频时刻检索。2.基于权利要求1所述模型的一种基于时空域信息交互的视频时刻检索方法,其特征在于,包括以下步骤;步骤1,获取原始的视频集和查询语句集,构建训练数据集和测试数据集;数据集中包含着视频和查询语句对;步骤2,构建视频特征预提取模块,使用预训练网络对训练数据集的原始视频V进行特征预提取,得到视频特征F;步骤3,构建文本特征预提取模块,使用预训练词嵌入模型将查询语句的训练数据集S映射到嵌入空间中,完成特征提取,得到文本特征Q;步骤4,利用步骤2中的视频特征F进行多尺度变换,生成多尺度视频特征;步骤5,利用步骤3中的文本特征Q进行多尺度的特征提取,生成多尺度文本特征步骤6,构建多尺度特征交互模块,使用不同尺度层级的视频与文本特征在融合阶段进行交互,生成多尺度交互特征F
p
;步骤7,构建时空域信息融合模块,将多尺度交互特征F
ip
与多尺度文本特征进行结合,得到时空域信息特征步骤8,构建时刻定位模块,对步骤7得到的时空域信息特征进行预处理,然后对特征进行分析和提取,得到最终的起始时间t
s
和结束时间t
e
;步骤9,采用Adam优化器对基于时空域信息交互的视频时刻检索模型进行训练,并定义了基于KL散度的损失函数来指导模型训练;步骤10,使用训练完成的基于时空域信息交互的视频时刻检索模型对测试集中的视频和文本对进行实验,以验证基于时空域信息交互的视频时刻检索方法的有效性。3.根据权利要求2所述的一种基于时空域信息交互的视频时刻检索方法,其特征在于,所述步骤2选取双流膨胀三维网络提取视频特征F,将双流膨胀三维网络中的二维卷积扩展为三维卷积,将双流膨胀三维网络中的卷积核和池化层加入时间维度,通过三维卷积学习时间特征具体步骤包括:步骤2.1,对原始视频V按照一定的间隔将视频划分为一系列不重叠的片段,原始视频V的总帧数为T,将视频分为n
snp
个片段,每个视频片段中包含k
v
个帧;步骤2.2,使用预训练双流膨胀三维网络提取每一个视频片段的视频特征F。4.根据权利要求2所述的一种基于时空域信息交互的视频时刻检索方法,其特征在于,所述步骤3具体为:选取GloVe模型将查询语句转换为嵌入向量,首先构建共现矩阵X,矩阵中的每一个元素X
ij
表示单词i与上下文单词j在上下文窗口内共同出现的次数,接着得到词向量和共现矩
阵的近似关系,最后根据词向量表示的误差构造损失函数进行学习;通过对词向量的学习,GloVe模型捕捉到单词间的语义关系,提取出查询语句S对应的文本特征Q。5.根据权利要求2所述的一种基于时空域信息交互的视频时刻检索方法,其特征在于,所述步骤4具体为:步骤4.1,将所述步骤2的视频特征F通过一层全连接层进行维度压缩,维度数降为128;步骤4.2,利用卷积对视频特征进行多尺度提取,得到4个不同尺度的视频特征:步骤4.21,视频特征F先通过一个卷积核大小为1,层数为128的一维卷积层,得到初次提取的细节特征F
1o
;步骤4.22,将F
1o
通过一个卷积核大小为1,层数为64的一维卷积层,得到第二层的视频特征步骤4.23,将通过一个卷积核大小为1,层数为32的一维卷积层,得到第三层的视频特征步骤4.24,将通过一个卷积核大小为1,层数为16的一维卷积层,得到第四层的视频特征6.根据权利要求2所述的一种基于时空域信息交互的视频时刻检索方法,其特征在于,所述步骤5具体为:步骤5.1,将所述步骤3得到的文本特征Q通过一层全连接层进行维度扩展...
【专利技术属性】
技术研发人员:何立火,施雯彬,邓夏迪,张卓远,王威力,高新波,路文,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。