基于多粒度视频信息和注意力机制的视频场景识别方法技术

技术编号:26792431 阅读:49 留言:0更新日期:2020-12-22 17:08
本发明专利技术公开了基于多粒度视频信息和注意力机制的视频场景识别方法,它解决了在视频场景识别方法中模型大多使用视频级的特征信息,而忽略多粒度的视频特征关联的问题。本发明专利技术首次提出了基于多粒度的视频特征的注意力机制的模型架构用于视频场景识别,它包括深度卷积神经网络模型、区域物体检测模型和视觉注意力模型。卷积神经网络提取视频帧全局的视觉特征;区域物体检测模型提取单个视频帧的局部表征,该特征包含了物体级别的细粒度信息表示;最后通过视觉注意力模型自适应地对场景中重要的局部信息进行加权操作,从而达到更精准的识别效果。本发明专利技术在VideoNet数据集上进行了大量实验,取得了非常有竞争力的评价结果。

【技术实现步骤摘要】
基于多粒度视频信息和注意力机制的视频场景识别方法
本专利技术属于视频场景识别方法,涉及机器学习和计算机视觉的

技术介绍
近年来,随着深度学习技术的发展,大量针对物体、人脸、动作等维度的识别技术涌现出来。而随着监控技术和短视频app的广泛应用,视频场景识别已成为一项极具科研价值和应用价值的技术,它的具体任务是给定一个特定的视频进行镜头分割,通过提取关键帧,输出场景的类别。目前主流的算法是使用视频级别的特征直接进行场景分类,特征在计算机视觉领域中扮演着重要的角色,选择合适的特征可以极大的提升模型的性能。早期视频特征主要使用VGG特征,该模型由SimonyanK.等人提出,也大量应用在图像识别领域。后来何凯明通过残差的思想实现了101层的CNN模型,得到了拟合更强的网络。Resnet作为特征提取网络被广泛应用于视频识别和图像描述等领域。Yu-GangJiang等人使用resnet作为视频级特征实现了视频场景分类的基础模型。使用Resnet提取的视频级特征也被称作RGB特征。然而视频帧之间是存在时空关系的,采用RGB特征无法表征出这种时序关系。为了解决这一问题,DuTran等人提出了空间卷积(C3D)的网络来获取时空的信息。英伟达提出利用帧之间的差异性计算时空信息的“光流法”,这两种跨时空特征被广泛的应用于视频识别,动作识别等领域。以上特征都可以被视作视频级别的特征,未从更细的粒度考虑视频内部的语义特征联系。ShaoqingRen等人认为,细粒度的特征有利于增强模型对于视觉信息的理解,为了得到这种信息,他们在较大的视觉检测数据集上训了Faster-rcnn用于识别目标图像中的物体,同时提出检测模型标识每个物体的中间特征,并将所有特征级联起来作为图像的总体特征。该模型首次提出后被应用于图像描述和图像问答领域,并取得了不错的成绩。我们认为,该特征同样可以应用于视频理解领域。在本文中,提出了一种新的模型,该模型利用视频级别的全局信息和物体级别的局部信息,提供更加丰富的推断信息。同时,本文采用了注意力机制来筛选对于视频场景识别重要程度高的特征,这一过程既增强了全局信息和局部信息的关联,同时也实现了对于特征的降维,有效地加速了模型的收敛。具体而言,卷积神经网络Resnet提取视频帧全局的视觉特征,Faster-rcnn提取单个视频帧的局部表征,即检测特征,该特征包含了物体级别的细粒度信息表示,最后通过视觉注意力模型自适应的对场景中重要的局部信息加权,从而达到更加精准的识别效果。
技术实现思路
本专利技术的目的是为了解决在视频场景识别方法中,提出的模型大都使用视频级的特征信息,忽略了多粒度的视频特征关联问题。本专利技术为解决上述技术问题采取的技术方案是:S1.构建深度卷积神经网络模型(Resnet)。S2.构建区域物体检测模型(Faster-rcnn)。S3.结合注意力机制,构建视觉注意力模型。S4.结合S1中的深度卷积神经网络模型、S2中的区域物体检测模型和S3中的视觉注意力模型构建基于多粒度的视频特征的注意力机制的模型架构。S5.基于多粒度的视频特征的注意力机制的模型架构的训练和场景识别。其中,Resnet是深度卷积神经网络的一种,它在原有的较浅层次的卷积神经网络的基础上添加了“残差”机制,因此再反向传播的过程中可以保证导数不为0,从而避免了深层网络出现梯度弥散的现象,有效的增加了卷积的拟合性。Resnet的残差过程可由如下公式表示y=F(x)+Wx(1)其中,x是输入的特征图,F代表卷积,W是用来调整x的channel维度的,y是当前残差的输出。Faster-rcnn作为一种有效的检测手段,其原理和SPPnet和Fast-rcnn这些模型有很大差别,这些模型虽然减少了检测网络运行的时间,但是计算区域建议依然耗时依然比较大。Faster-rcnn采用了RegionProposalNetwork(区域建议网络)用来提取检测物体的区域,它和整个检测网络共享全图的卷积特征,极大的降低区域建议网络所花时间,从而提升了检测的效率和质量。给定个固定的视频,首先将视频切割成一个视频序列Ti(i=1,2...m),视频场景识别的目的就是产生m个针对特定视频帧的场景分类pi(i=1,2...m)。卷积神经网络Resnet提取视频帧全局的视觉特征Ii(i=1,2...m),代表即将进行场景分类的帧的粗粒度的表示,该表示是一个D(2048)维的向量,此外我们还通过预训练的Faster-rcnn提取单个视频帧的局部表征,即检测特征,该特征包含了物体级别的细粒度信息表示。S={S1,S2...SN}其中n代表选中帧提取的物体个数,实践中n被设置为36。即:Ii=f(Ti)(2)Si=g(Ti)(3)其中,f代表深度卷积网络Resnet,g代表检测网络Faster-rcnn。得到多粒度的视觉特征后,我们使用全局特征作为注意力机制的键值,通过注意力单元的计算得到n个注意力权重αi,该权重用来控制传入的物体级别的视频特征的。注意力模型会根据不同物体对于推断视频场景的重要程度的到相应权重,物体重要程度越大,其权重值约接近于1;物体对于场景推断越不重要甚至起到干扰作用,其权重越接近于0。最后通过计算得到加权后的视觉特征att,同时也实现了对于细粒度特征的降维,att是一个D(2048)维的向量。该流程如图1所示,可以概括为以下公式:αi=attention(Ii,Si)(4)att=Si×αi(i=1,2...n)(5)最终,融合多粒度信息表示的视觉特征被输入到一个分类器,该分类器是由一个两层的神经网络,和一个激活函数构成,该分类器的作用是将D维表示向量映射为d,d代表了场景分类的总数,选取其中值对应的最大的索引,该索引所对应的分类结果就是最后场景分类的结果。其流程可以用公式表示:logit=W2(W1×att+b1)+b2(6)p=softmax(logit)(7)W1,W2代表两层神经网络的可学习权重,logit是未经过激活函数的值,p为最终的分类概率,概率最大的索引所对应的场景即为神经网络的输出结果。在图1中所采用的的注意力机制是一种典型的架构,在此基础上设计了多粒度视频信息的注意力机制。我们使用检测模型Faster-rcnn提取的图像特征S是一个n×D维的向量,即对应于n个不同物体的子区域,每个区域用D维的向量表示:S={S1,S2...Si...Sn},Si∈RD其中,RD表示属于D维度;Si表示第i个物体的图像区域;对于每个物体的特征表示,我们依照注意力分配函数根据细粒度检测特征Si和全局特征Ii生成一个权重αi:对αi作归一化处理得到注意力权重,使αi介于0到1之间:其中,αi表示视觉注意力模型中第i个物体的图像对应区域的权重;经过多粒度视觉注意力模型加权以后的视频帧的最终表示成att,公式如下:训练过程中我们使用了本文档来自技高网
...

【技术保护点】
1.基于多粒度视频信息和注意力机制的视频场景识别方法,其特征在于,所述方法包括以下步骤:/nS1.构建深度卷积神经网络模型(Resnet)。/nS2.构建区域物体检测模型(Faster-rcnn)。/nS3.结合注意力机制,构建视觉注意力模型。/nS4.结合S1中的深度卷积神经网络模型、S2中的区域物体检测模型和S3中的视觉注意力模型构建基于多粒度的视频特征的注意力机制的模型架构。/nS5.基于多粒度的视频特征的注意力机制的模型架构的训练和场景识别。/n

【技术特征摘要】
1.基于多粒度视频信息和注意力机制的视频场景识别方法,其特征在于,所述方法包括以下步骤:
S1.构建深度卷积神经网络模型(Resnet)。
S2.构建区域物体检测模型(Faster-rcnn)。
S3.结合注意力机制,构建视觉注意力模型。
S4.结合S1中的深度卷积神经网络模型、S2中的区域物体检测模型和S3中的视觉注意力模型构建基于多粒度的视频特征的注意力机制的模型架构。
S5.基于多粒度的视频特征的注意力机制的模型架构的训练和场景识别。


2.根据权利要求1所述的基于多粒度视频信息和注意力机制的视频场景识别方法,其特征在于,所述S1的具体过程为:
Resnet是深度卷积神经网络的一种,它在原有的较浅层次的卷积神经网络的基础上添加了“残差”机制,因此再反向传播的过程中可以保证导数不为0,从而避免了深层网络出现梯度弥散的现象,有效的增加了卷积的拟合性。Resnet的残差过程可由如下公式表示:
y=F(x)+Wx(1)
其中,x是输入的特征图,F代表卷积,W是用来调整x的channel维度的,y是当前残差的输出。


3.根据权利要求1所述的基于多粒度视频信息和注意力机制的视频场景识别方法,其特征在于,所述S2的具体过程为:
Faster-rcnn作为一种有效的检测手段,其原理和SPPnet和Fast-rcnn这些模型有很大差别,这些模型虽然减少了检测网络运行的时间,但是计算区域建议依然耗时依然比较大。Faster-rcnn采用了RegionProposalNetwork(区域建议网络)用来提取检测物体的区域,它和整个检测网络共享全图的卷积特征,极大的降低区域建议网络所花时间,从而提升了检测的效率和质量。
给定个固定的视频,首先将视频切割成一个视频序列Ti(i=1,2...m),视频场景识别的目的就是产生m个针对特定视频帧的场景分类pi(i=1,2...m)。卷积神经网络Resnet提取视频帧全局的视觉特征Ii(i=1,2...m),代表即将进行场景分类的帧的粗粒度的表示,该表示是一个D(2048)维的向量,此外我们还通过预训练的Faster-rcnn提取单个视频帧的局部表征,即检测特征,该特征包含了物体级别的细粒度信息表示。S={S1,S2...SN}其中n代表选中帧提取的物体个数,实践中n被设置为36。即:
Ii=f(Ti)(2)
Si=g(Ti)(3)
其中,f代表深度卷积网络Resnet,g代表检测网络Faster-rcnn。


4.根据权利要求1所述的基于多粒度视频信息和注意力机制的视频场景识别方法,其特征在于,所述S3的具体过程为:
得到多粒度的视觉特征后,我们使用全局特征作为注意力机制的键值,通过注意力单元的计算得到n个注意力权重αi,该权重用来控制传入的物体级别的视频特征的。注意力模型会根据不同物体对于推断视频场景的重要程度的到相应权重,物体重要程度越大,其权重值约接近于1;物体对于场景推断越不重要甚至起到干扰作用,其权重越接近于0。最后通过计算得到...

【专利技术属性】
技术研发人员:吴春雷段海龙袁韶祖吴杰路静王雷全
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1