基于从局部到全局的视频时序片段提取方法技术

技术编号:24764521 阅读:47 留言:0更新日期:2020-07-04 11:15
本发明专利技术公开了一种基于从局部到全局的视频时序片段提取方法,该方法包括:1)特征提取;2)编码;3)提名特征预测;4)评估;本发明专利技术方法使模型能够在学习的过程中既关注到视频的局部信息,又关注到视频的全局信息,同时能够更关注到行为本身而非背景,从而准确的提取出视频中行为发生的片段。

Video time series extraction method based on local to global

【技术实现步骤摘要】
基于从局部到全局的视频时序片段提取方法
:本专利技术属于计算机科学人工智能领域,具体涉及一种基于从局部到全局的视频时序片段提取方法,用于从短视频中提取精彩行为时序片段。
技术介绍
:时序片段提名生成是视频分析的一个重要的组成部分,其目的是在未经剪辑的视频中精确的定位行为动作发生的时间片段,生成的时序片段的好坏对下一步基于提名的动作检测有很大影响。如何生成具有精确时序边界的片段是时序片段提名生成的一个关键问题。时序片段提名生成方法大致分为以下三种:第一种是基于滑动窗口的方法,具体来说,首先预定义大量不同尺度的候选框,然后根据候选框中是否有行为发生来给候选框打分并根据得分排序。但这种方法存在的缺陷是候选框全都是预先设定好的尺度,框中可能包含大量冗余的噪声,导致时序边界不够精确。第二种是基于行为得分的方法,具体来说,这类方法首先给每一个时间点上的视频打一个行为性得分(即是否有行为发生),然后用设定阈值的方法将得分大于阈值的聚合起来,形成提名片段。但这种方法的不足是提名片段的质量严重依赖于聚合的策略。第三种是基于边界点检测的方法,具体来说,这种方法首先预测时间点上每一帧视频的行为性概率,开始概率以及结束概率,然后用概率大的开始点,结束点来构成提名片段。但这种方法的不足是仅关注局部而缺少了全局的时序信息。
技术实现思路
:为了解决现有方法中没有充分利用全局信息,仅仅关注局部信息来进行建模的不足以及行为片段包含大量冗余背景的不足,本专利技术提出一种基于从局部到全局的视频时序片段提取方法,其技术方案如下:一种基于从局部到全局的视频时序片段提取方法,包括如下具体步骤:1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序来分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成特征向量F’沿着时序维度堆叠形成特征向量F;2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:2.1)使用时序卷积网络对特征向量F进行局部信息建模:首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:Femb1=(Wemb1*F+bemb1)Femb2=(Wemb2*Femb1+bemb2)式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp:Fcomp=Femb1+Femb2;2.2)使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,其中,biLSTM神经网络由两个LSTM神经网络组成,单个LSTM神经网络的全局特征的编码过程如下:It=σ(WxiXt+WhiHt-1+bi)Ft=σ(WxfXt+WhfHt-1+bf)Ot=σ(WxoXt+WhoHt-1+bo)gt=tanh(WxgXt+WhgHt-1+bg)Ct=Ft⊙Ct-1+It⊙gtHt=Ot⊙tanh(Ct)式中,t表示时间点,It,Ft,Ot分别表示t时间点的单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1时间点的旧的细胞信息;Xt表示在t时间点的输入特征向量;Ht表示t时间点的隐状态,⊙表示点乘运算;Wxi和bi分别表示输入门的权重矩阵与偏置矩阵;Wxf和bf分别表示遗忘门的权重矩阵与偏置矩阵;Wxo和bo分别表示输出门的权重矩阵与偏置矩阵;Wxg和bg分别表示候选细胞信息的权重矩阵与偏置矩阵;2.3)使用注意力机制来引导模型的学习过程,使其更关注行为而非背景噪声,即采用多层感知机以及非线性映射,使在增加时序上运动行为的权重的同时抑制嘈杂背景的权重,该过程可按如下公式表示:st=tanh(Wqs(H'tWhq+bq)+bs)式中,st表示多层感知机的输出,st,i表示多层感知机的输出st的第i维,i的取值范围为[1,D],D表示多层感知机的输出st的维度数;Wqs和bq分别表示模型中第一层线性层的权重矩阵与偏置矩阵;Whq和bs分别表示模型中第二层线性层的权重矩阵与偏置矩阵;αt,i表示st中第i维度上的权重;再通过给每个时间点分配权重来形成编码后的特征向量s't,该过程可按如下公式表示:s't=∑iαt,ist,i;3)提名特征预测:基于编码后的特征向量s't,采用卷积网络的方法生成表示s't每个时间点包含行为的概率、行为开始的概率和行为结束的概率,并用设定阈值的方法将概率值大的时间点聚合形成提名片段,并基于形成的提名片段生成提名特征;4)评估:对步骤3)中的提名特征用全连接网络进行置信度得分预测,再采用非极大值抑制方法筛除冗余片段,得到时序片段组。优选地,步骤2.2)中所述biLSTM循环神经网络通过前向与后向的方法来使网络学习到整个时间点上从过去到未来的全局的特征向量,该过程可按如下公式表示:其中,H't表示前向与后向LSTM生成的特征向量特征向量的聚合;表示前向LSTM生成的特征向量;表示后向LSTM生成的特征向量。优选地,步骤2.3)中所述注意力机制采用Attn注意力机制。本专利技术相比于现有技术具有如下有益效果本专利技术的基于从局部到全局的视频时序片段提取方法,使模型能够在学习的过程中既关注到视频的局部信息,又关注到视频的全局信息,同时能够更关注到行为本身而非背景,从而准确的提取出视频中行为发生的片段。附图说明:图1为本方法的流程图;图2为双向循环神经网络的结构图;图3为注意力机制结构图;图4为在行为检测数据集THUMOS14上本专利技术方法的可视化结果图。具体实施方式:下面结合具体实施例及对应附图对本专利技术作进一步说明。实施例一:本实施例采用本专利技术提出的基于从局部到全局的视频时序片段提取方法,本专利技术所采用的基于局部到全局的视频时序片段提取系统,包括特征提取模块、编码模块、提名特征预测模块和评估模块组成。如图1所示,本专利技术方法包括如下具体步骤:1)首先使用特征提取模块提取给定视频帧中时间点上每一个时间点的视觉语义时空特征。特征提取模块主要采用视频领域广泛使用的双流网络,即用两个分支来分别建模静态的表观信息与动态的运动信息,两个分支的输入分别为图片和光流。具体过程为:首先用TVL1法提取给定的视频帧的本文档来自技高网...

【技术保护点】
1.一种基于从局部到全局的视频时序片段提取方法,其特征在于:包括如下具体步骤:/n1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:/n首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成的特征向量F’沿着时序维度堆叠形成特征向量F;/n2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:/n2.1)使用时序卷积网络对特征向量F进行局部信息建模:/n首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:/nF

【技术特征摘要】
1.一种基于从局部到全局的视频时序片段提取方法,其特征在于:包括如下具体步骤:
1)特征提取:按如下方法从给定的视频帧中提取特征向量F,该方法包括:
首先用TVL1法提取给定视频帧的光流,再采用双流网络按视频帧的时序分别对每一对图片和光流进行建模,聚合形成特征向量F’,然后将所有聚合形成的特征向量F’沿着时序维度堆叠形成特征向量F;
2)编码:对特征向量F,依次使用时序卷积网络、双向循环神经网络以及注意力机制进行编码,其具体步骤如下:
2.1)使用时序卷积网络对特征向量F进行局部信息建模:
首先将步骤1)提取的特征向量F作为输入,使用时序卷积来捕获局部信息,即将特征向量F输入到2层步长为1,卷积核大小为3的一维卷积,该过程可按如下公式表示:
Femb1=(Wemb1*F+bemb1)
Femb2=(Wemb2*Femb1+bemb2)
式中,Femb1表示特征向量F经过第一层时序卷积生成的特征向量;Femb2表示经过第二层时序卷积生成的特征向量;Wemb1表示第一层卷积核的权重参数;bemb1表示第一层卷积核的偏置参数;Wemb2表示第二层卷积核的权重参数;bemb2表示第二层卷积核的偏置参数;*表示卷积运算;
然后通过加和操作来融合Femb1和Femb2,得到融合后的特征向量Fcomp:
Fcomp=Femb1+Femb2;
2.2)使用双向循环神经网络对融合后的特征向量Fcomp进行全局信息建模,所述双向循环神经网络为biLSTM神经网络,其中,biLSTM神经网络由两个LSTM神经网络组成,单个LSTM神经网络的全局特征的编码过程如下:
It=σ(WxiXt+WhiHt-1+bi)
Ft=σ(WxfXt+WhfHt-1+bf)
Ot=σ(WxoXt+WhoHt-1+bo)
gt=tanh(WxgXt+WhgHt-1+bg)
Ct=Ft⊙Ct-1+It⊙gt
Ht=Ot⊙tanh(Ct)
式中,t表示时间点,It,Ft,Ot分别表示t时间点的单个LSTM的输入门、遗忘门和输出门;Ct表示t时间点的新的细胞信息;Ct-1表示t-1...

【专利技术属性】
技术研发人员:朱轶昇刘光灿
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1