【技术实现步骤摘要】
一种基于双自注意力胶囊网络的视频摘要方法
本专利技术涉及视频处理
,具体来说,涉及一种基于双自注意力胶囊网络的视频摘要方法。
技术介绍
随着手机、数码相机等视频拍摄设备的发展和普及,视频的数量急剧增加。受限于多数拍摄者都缺乏专业的摄影知识,人们所拍摄的大多数的视频通常是冗余的,可能在一个视频中只包含非常少的重要信息。浏览和理解这类视频非常耗时。因此,为了便于浏览和理解,对于给定的视频我们需要生成一个简洁的、不冗余的摘要,并且该摘要不能损失重要的语义信息。视频摘要本质是一个子集选择问题。通过子集选择,我们可以得到帧,镜头和对象三个层次的摘要。为了得到帧级视频摘要,首先一般需要为每一帧提取视觉特征,例如使用广泛使用的预训练CNN(卷积神经网络)模型。然而,视频不仅有空间性,更有时间性。而这些预训练的CNN模型忽略了视频帧之间的时间依赖性。为了整合时间信息,最近的研究利用了RNNs(循环神经网络)和LSTM(长短记忆模型)等序列模型。然而,这些基于RNN/LSTM的方法仍然面临两大挑战:(1)由于RNN/LSTM对并 ...
【技术保护点】
1.一种基于双自注意力胶囊网络的视频摘要方法,其特征在于,该视频摘要方法包括以下步骤:/nS1:通过预设方法将视频摘要问题视为一个视频帧序列的标记问题;/nS2:对于给定的视频,使用在ImageNet数据集上预训练的GoogLeNet模型来提取每个视频帧的初始特征向量;/nS3:利用双注意力模型对S2中得到的所述初始特征向量进行特征细化;/nS4:利用双流胶囊网络来对所述细化特征进行融合,并对所述视频的每个帧进行标记,得到关键帧胶囊u
【技术特征摘要】
1.一种基于双自注意力胶囊网络的视频摘要方法,其特征在于,该视频摘要方法包括以下步骤:
S1:通过预设方法将视频摘要问题视为一个视频帧序列的标记问题;
S2:对于给定的视频,使用在ImageNet数据集上预训练的GoogLeNet模型来提取每个视频帧的初始特征向量;
S3:利用双注意力模型对S2中得到的所述初始特征向量进行特征细化;
S4:利用双流胶囊网络来对所述细化特征进行融合,并对所述视频的每个帧进行标记,得到关键帧胶囊u1和非关键帧胶囊u2,且每个胶囊的长度表示其属于该类别的概率;
S5:使用相应目标函数,以深度学习的方式来训练上述的模型,以使得该模型能够生成简洁、完整的摘要;
S6:根据S5训练好的模型,对于新输入的视频,执行上述S1-S4步骤,得到关键帧胶囊u1的概率,用于生成最终的摘要。
2.根据权利要求1所述的一种基于双自注意力胶囊网络的视频摘要方法,其特征在于,所述步骤S1通过预设方法将视频摘要问题视为一个视频帧序列的标记问题具体包括以下步骤:
S11:定义V={v1,v2,...,vT}表示一个视频,其中T表示该视频的总帧数,vt表示第t帧;
S12:给定一个视频赋予一个标签序列Y={y1,y2,...,yT},其中,yt∈{0,1}且yt=1代表第t帧为关键帧,应当被选入摘要;反之,yt=0代表第t帧为非关键帧。
3.根据权利要求1所述的一种基于双自注意力胶囊网络的视频摘要方法,其特征在于,所述步骤S2对于给定的视频,使用在ImageNet数据集上预训练的GoogLeNet模型来提取每个视频帧的初始特征向量具体包括以下步骤:
S21:获取已经搭建并训练好的GoogLeNet模型;
S22:输入一个视频,并将所述视频解析为帧;
S23:采用S21中的GoogLeNet模型来提取所述视频数据中每一帧的初始特征向量,并用ft表示第t帧的特征向量,定义如下:
ft=CNN(vt)(1);
其中,表示预训练的GoogLeNet模型,vt表示第t帧;
S24:将得到的所有帧的特征向量组合起来,得到该视频的特征向量F={f1,f2,...,fT}。
4.根据权利要求1所述的一种基于双自注意力胶囊网络的视频摘要方法,其特征在于,所述步骤S3利用双注意力模型对S2中得到的所述初始特征向量进行特征细化具体包括以下步骤:
S31:基于自注意力机制,构建一个包含局部自注意力网络和全局自注意力网络的双注意力模块;
S32:将包含T帧的视频序列划分为M个视频片段,每个片段含有N个连续帧,将每个片段所有帧作为一个输入流,输入所述局部自注意力网络以捕捉短期依赖关系;从每个片段中抽取对应位置的帧组成新的输入流,输入所述全局自注意力网络以捕捉长期的依赖关系,视频片段的数量表示为:
其中,表示向下取整操作;
S33:通过所述局部自注意力网络模块对所述初始特征进行特征细化;
S34:通过所述全局自注意力网络模块对所述初始特征进行特征细化。
5.根据权利要求4所述的一种基于双自注意力胶囊网络的视频摘要方法,其特征在于,所述步骤S33通过所述局部自注意力网络模块对所述初始特征进行特征细化具体包括以下步骤:
S331:将每个片段所有帧组成所述局部自注意力网络的输入流{lm:m=1,2,...,M}:
lm={ft:t=(m-1)·N+1,...,m·N-1,m·N}(3);
其中,lm为第m个输入流,M为片段的总数,ft为第t帧的特征向量;
S332:将S331中得到的第m个输入流lm输入到自注意力网络中,以获取第m个局部输入流细化后的特征:
其中,表示自注意力网络,表示细化后的特征;
S333:按照所述视频数据的原始视频帧顺序将所有的细化后的特征重新组合为其中,T表示视频总帧数,表示第t帧经过局部自注意力网络细化后的特征向量。
6.根据权利要求4所述的一种基于双自注意力胶囊网络的视频摘要方法,其特征在于,所述步骤S34通过所述全局自注意力网络模块对所述初始特征进行特征细化具体包括以下步骤:
S341:从每个视频片段中选出对应位置的帧组成所述全局自注意力网络的输入流{gn:n=1,2,...,N}:
gn={ft:t=n,n+N,...,n+(M-1)·N}(5);
其中,gn为第...
【专利技术属性】
技术研发人员:王洪星,傅豪,徐玲,杨梦宁,洪明坚,葛永新,黄晟,陈飞宇,
申请(专利权)人:重庆大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。