当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于深度学习的视频时刻检索方法与系统技术方案

技术编号:34515248 阅读:29 留言:0更新日期:2022-08-13 21:02
本发明专利技术公开了一种基于深度学习的视频时刻检索方法与系统。包括:从Charades

【技术实现步骤摘要】
一种基于深度学习的视频时刻检索方法与系统


[0001]本专利技术涉及计算机视觉,视频检索领域,具体涉及一种基于深度学习的视频时刻检索方法与系统。

技术介绍

[0002]随着信息时代的飞速发展,每天都有大量的新闻、体育、教育类等视频涌现,而很多信息对用户而言是不必要的。此外,在一些应用领域例如视频监控领域,用户需要在海量的视频数据中快速过滤掉绝大部分无用的视频信息。在这样一个庞大的视频语料库中精确检索到用户想要的视频信息难度非常之大,但又是用户迫切需求的,而现在大部分主流视频网站(bilibli,youtube等)都只能根据查询词返回一系列相关视频,并且存在定位不准、冗余视频多等问题。
[0003]于是视频时刻检索技术便应运而生,对于一个给定的视频,用户输入一句查询词,便可返回查询词对应的起始和结束时刻,定位到视频中的具体片段,方便用户更好的检索到自己想要的内容。之前方法通常为预定义的动作列表训练分类器,并以滑动窗口的方式应用它们,给视频中各个动作分类从而完成定位。但是动作包括主语、动词和宾语三个变量,在现实世界中对应各式各样的复杂情况,因此设计一个合适的满足用户需求的活动列表是很困难的。
[0004]近年来,深度学习技术蓬勃发展,有方案提出将其结合到视频时刻检索上,首先搜集大量的视频,将视频分为多个片段,每个片段都与一个或多个同义查询词对应,将视频片段

查询作为一个样本对放到神经网络中来训练数据,达到时刻检索的目的。目前的视频时刻检索技术受限于人工智能相关技术的发展,返回的结果往往不太准确,精度仍然不能让用户满意。
[0005]目前的现有技术之一,“一种基于时间回归网络来细化时间边界的视频时刻检索方法”,该方法提取视频和文本的特征后,将其进行加、乘、全连接后拼接在一起,最后计算出回归分数。该方法的缺点是网络过于简单,最后检索结果的准确度不高。
[0006]目前的现有技术之二,“一种学习了视频时间上下文特征和文本特征的共同嵌入表示的视频时刻检索方法”,该方法中视频时间上下文特征集成了局部视频特征(反映特定时刻发生了什么)、全局特征(提供特定时刻的上下文)和时间端点特征(表明某个时刻在视频中发生),并且同时考虑了外观和光流输入模态。该方法的缺点是无法在视频中定位复杂的句子结构。
[0007]目前的现有技术之三,是用预先定义的活动列表来训练分类器,根据输入查询句的动作类别进行分类定位到相关位置。该方案的缺点是预定义各式各样复杂的动作列表非常困难。

技术实现思路

[0008]本专利技术的目的是克服现有方法的不足,提出了基于深度学习的视频时刻检索方法
与系统。本专利技术解决的主要问题是,现有基于预定义活动列表的视频时刻检索方法无法准确定义现实世界中各式各样的活动;现有基于深度学习的视频时刻检索方法,准确度普遍低于用户预期。即如何基于深度学习,增强提取特征的全局语义相关性,从而提高视频时刻检索精确度的问题。
[0009]为了解决上述问题,本专利技术提出了一种基于深度学习的视频时刻检索方法,所述方法包括:
[0010]从Charades

STA数据集筛选并输入视频片段和查询文本;
[0011]利用预训练好的C3D(Convolutional 3D,3D卷积神经网络)提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe (Global Vectors for Word Representation,全局词向量表示)提取所述查询文本的文本特征,形成查询词向量;
[0012]利用Bi

LSTM(Bi

Long Short

Term Memory,双向长短时记忆网络) 将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;
[0013]利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频

文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频

文本全局语义表示;
[0014]用所述视频

文本局部语义表示来修正所述视频

文本全局语义表示;
[0015]将所述修正后的视频

文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。
[0016]优选地,所述从Charades

STA数据集筛选并输入视频片段和查询文本,具体为:
[0017]所述Charades

STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段

文本对剥离开来。
[0018]优选地,所述利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量,具体为:
[0019]所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为 3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;
[0020]所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。
[0021]优选地,所述利用Bi

LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征,具体为:
[0022]所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024维向量;
[0023]将所述维度化为一致的两组向量分别输入Bi

LSTM中,Bi

LSTM由2 组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了3个门结构即遗忘门、输入门和输出门,将两组
LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;
[0024]注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、K、V都设成所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的视频时刻检索方法,其特征在于,所述方法包括:从Charades

STA数据集筛选并输入视频片段和查询文本;利用预训练好的3D卷积神经网络C3D提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的全局词向量表示GloVe提取所述查询文本的文本特征,形成查询词向量;利用双向长短时记忆网络Bi

LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频

文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频

文本全局语义表示;用所述视频

文本局部语义表示来修正所述视频

文本全局语义表示;将所述修正后的视频

文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。2.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述从Charades

STA数据集筛选并输入视频片段和查询文本,具体为:所述Charades

STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段

文本对剥离开来。3.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量,具体为:所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。4.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用Bi

LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征,具体为:所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024维向量;将所述维度化为一致的两组向量分别输入Bi

LSTM中,Bi

LSTM由2组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了3个门结构即遗忘门、输入门和输出门,将两组LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、K、V都
设成所述经Bi

LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征,并把Q、K、V都设成所述经Bi

LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。5.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频

文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频

文本全局语义表示,具体为:将所述经Bi

LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频

文本局部语义表示,其中视频片段向量的概念级特征作为Q、K,查询词向量扩展的短语级特征作为V,具体公式如下:U
VP
=MultiHead(MLP
P
(U
P
),MLP
P
(U
P
),MLP
V
(U
V
))其中,U
VP
是查询词向量扩展的短语级特征以及视频片段向量的概念级特征的语义对齐的特征表示,U
P
是视频片段向量的概念级特征,U
V
是查询词向量扩展的短语级特征,MultiHead(

)是多头注意力机制编码器,MLP(

)是多层感知机;将所述经多头注意力机制处理得到的查询词向量扩展的句子级特征与视频的全局特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频

文本全局语义表示,其中查询词向量扩展的句子级特征作为Q、K,视频的全局特征作为V,具体公式如下:U
GS
=MultiHead(MLP
P
(U
S
),MLP
P
(U
S
),MLP
V
(U
G
))其中,U
GS
是查询词向量扩展的句子级特征与视频的全局特征的语义对齐的特征表示,U
G
是视频的全局特征,U
S
是查询词向量扩展的句子级特征,MultiHead(

)是多头注意力机制编码器,MLP(

)是多层感知机。6.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述用所述视频

文本局部语义表示来修正所述视频

文本全局语义表示,具体为:将Transformer的2层Encoder作为一个全局修正单元,经过多层全局修正单元用经所述得到的视频

【专利技术属性】
技术研发人员:周凡黎金宇林格林淑金
申请(专利权)人:中山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1