【技术实现步骤摘要】
一种基于深度学习的视频时刻检索方法与系统
[0001]本专利技术涉及计算机视觉,视频检索领域,具体涉及一种基于深度学习的视频时刻检索方法与系统。
技术介绍
[0002]随着信息时代的飞速发展,每天都有大量的新闻、体育、教育类等视频涌现,而很多信息对用户而言是不必要的。此外,在一些应用领域例如视频监控领域,用户需要在海量的视频数据中快速过滤掉绝大部分无用的视频信息。在这样一个庞大的视频语料库中精确检索到用户想要的视频信息难度非常之大,但又是用户迫切需求的,而现在大部分主流视频网站(bilibli,youtube等)都只能根据查询词返回一系列相关视频,并且存在定位不准、冗余视频多等问题。
[0003]于是视频时刻检索技术便应运而生,对于一个给定的视频,用户输入一句查询词,便可返回查询词对应的起始和结束时刻,定位到视频中的具体片段,方便用户更好的检索到自己想要的内容。之前方法通常为预定义的动作列表训练分类器,并以滑动窗口的方式应用它们,给视频中各个动作分类从而完成定位。但是动作包括主语、动词和宾语三个变量,在现实世界中对应各式各样的复杂情况,因此设计一个合适的满足用户需求的活动列表是很困难的。
[0004]近年来,深度学习技术蓬勃发展,有方案提出将其结合到视频时刻检索上,首先搜集大量的视频,将视频分为多个片段,每个片段都与一个或多个同义查询词对应,将视频片段
‑
查询作为一个样本对放到神经网络中来训练数据,达到时刻检索的目的。目前的视频时刻检索技术受限于人工智能相关技术的发展,返回的结果往往 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的视频时刻检索方法,其特征在于,所述方法包括:从Charades
‑
STA数据集筛选并输入视频片段和查询文本;利用预训练好的3D卷积神经网络C3D提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的全局词向量表示GloVe提取所述查询文本的文本特征,形成查询词向量;利用双向长短时记忆网络Bi
‑
LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征;利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频
‑
文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频
‑
文本全局语义表示;用所述视频
‑
文本局部语义表示来修正所述视频
‑
文本全局语义表示;将所述修正后的视频
‑
文本全局语义注入包括一个生成软注意力的多层感知机MLP和一个回归的多层感知机MLP的软注意力时序定位回归网络,回归目标视频片段的精确位置。2.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述从Charades
‑
STA数据集筛选并输入视频片段和查询文本,具体为:所述Charades
‑
STA数据集分为训练集和数据集,视频片段均从一整部视频中分割出来,其中训练集和测试集中的片段均来自不同视频,即训练集和测试集不会包含同一部视频,片段都有对应描述的文本,将片段
‑
文本对剥离开来。3.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用预训练好的C3D网络提取所述视频片段的视频特征,形成视频片段向量,利用预训练好的GloVe提取所述查询文本的文本特征,形成查询词向量,具体为:所述C3D网络利用3维卷积核对视频进行处理,可以提取基础的视频特征,共有8次卷积操作,4次池化操作,其中卷积核的大小均为3*3*3,步长为1*1*1,池化核的大小为2*2*2,步长为2*2*2,得到向量维度为4096;所述GloVe是一个典型的基于统计的获取词向量的方法,具体地,用一个词语周边其他词语出现的次数来表示每一个词语,此时每个词向量的维度等于词库容量,每一维存储着词库对应序号的词语出现在当前词语周围的次数,得到向量维度为4800。4.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用Bi
‑
LSTM将所述查询词向量扩展为短语级特征,获取所述视频片段向量的概念级特征,接着利用多头注意力机制得到所述查询词向量扩展的句子级特征以及视频的全局特征,具体为:所述提取的视频片段向量和词向量的维度是不一样的,通过一层全连接将所述得到的两组向量维度化为一致,最终得到的都是1024维向量;将所述维度化为一致的两组向量分别输入Bi
‑
LSTM中,Bi
‑
LSTM由2组LSTM组成,而LSTM有多层神经网络构成,隐藏层增加了3个门结构即遗忘门、输入门和输出门,将两组LSTM的向量首尾对调分别拼接在一起后,使特征同时拥有过去和未来的信息,得到查询词向量扩展的短语级特征以及视频片段向量的概念级特征;注意力机制是对Q、K计算得到注意力权重,然后作用于V得到整个权重和输出,多头注意力机制是将多组注意力的结果拼接起来进行一次线性变换得到的结果,分别把Q、K、V都
设成所述经Bi
‑
LSTM处理得到的视频片段向量的概念级特征得到视频的全局特征,并把Q、K、V都设成所述经Bi
‑
LSTM处理得到的查询词向量扩展的短语级特征来得到查询词向量扩展的句子级特征。5.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述利用Transformer对所述查询词向量扩展的短语级特征以及所述视频片段向量的概念级特征进行对齐,形成视频
‑
文本局部语义表示,对所述查询词向量扩展的句子级特征以及所述视频的全局特征进行对齐,形成视频
‑
文本全局语义表示,具体为:将所述经Bi
‑
LSTM处理得到的视频片段向量的概念级特征与查询词向量扩展的短语级特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频
‑
文本局部语义表示,其中视频片段向量的概念级特征作为Q、K,查询词向量扩展的短语级特征作为V,具体公式如下:U
VP
=MultiHead(MLP
P
(U
P
),MLP
P
(U
P
),MLP
V
(U
V
))其中,U
VP
是查询词向量扩展的短语级特征以及视频片段向量的概念级特征的语义对齐的特征表示,U
P
是视频片段向量的概念级特征,U
V
是查询词向量扩展的短语级特征,MultiHead(
⊙
)是多头注意力机制编码器,MLP(
⊙
)是多层感知机;将所述经多头注意力机制处理得到的查询词向量扩展的句子级特征与视频的全局特征经过一层MLP后,利用Transformer的多头注意力机制进行特征的融合和语义上的对齐,得到视频
‑
文本全局语义表示,其中查询词向量扩展的句子级特征作为Q、K,视频的全局特征作为V,具体公式如下:U
GS
=MultiHead(MLP
P
(U
S
),MLP
P
(U
S
),MLP
V
(U
G
))其中,U
GS
是查询词向量扩展的句子级特征与视频的全局特征的语义对齐的特征表示,U
G
是视频的全局特征,U
S
是查询词向量扩展的句子级特征,MultiHead(
⊙
)是多头注意力机制编码器,MLP(
⊙
)是多层感知机。6.如权利要求1所述的基于深度学习的视频时刻检索方法,其特征在于,所述用所述视频
‑
文本局部语义表示来修正所述视频
‑
文本全局语义表示,具体为:将Transformer的2层Encoder作为一个全局修正单元,经过多层全局修正单元用经所述得到的视频
‑
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。