一种基于特征增强的视频分类算法制造技术

技术编号:24331317 阅读:52 留言:0更新日期:2020-05-29 19:42
一种基于特征增强的视频分类算法涉及视频处理技术领域,方法包括:首先将待分类视频分为K段,在每段中随机选择帧或者等距离选择帧;通过预先训练好的CNN模型来提取每一帧的图像特征,将每一帧特征输入特征融合层的池化模块,池化模块将提取的特征聚合成整个视频的压缩表示;根据每一段中的视频表示输入到特征增强层,特征增强层能够增加重要特征的权重,并减少非重要特征的权重,然后通过聚合函数从K个片段中相同类别得分得到某个类别的最终分数。本发明专利技术能够有效的提高分类效率,通过分为K段采样,解决了视频相邻帧相似度高的问题,通过特征增强层选择更重要的特征有效的提高了分类准确率。

A video classification algorithm based on feature enhancement

【技术实现步骤摘要】
一种基于特征增强的视频分类算法
本专利技术属于视频信息内容发掘技术,更具体的是,设计一种基于注意力的特征增强的视频分类。
技术介绍
近年来,得益于深度学习强大的特征提取能力,视频内容的识别和分析取得了突破性进展。视频内容识别的核心在于视频特征的提取,视频特征是视频本身所具有的物理性质,能够从不同的角度反映视频内容。目前主流的视频分类的方法有三大类:基于LSTM的方法,基于3D卷积的方法和基于双流的方法。基于LSTM的方法将视频的每一帧用卷积网络提取出每一帧的特征,然后将每一个特征作为一个时间点,依次输入到LSTM中。由于LSTM并不限制序列的长度,所以这种方法可以处理任意长度的视频。但同时,因为LSTM本身有梯度消失和爆炸的问题,往往难以训练出令人满意的效果。而且,由于LSTM需要一帧一帧得进行输入,所以速度也比不上其他的方法。基于3D卷积的方法将原始的2D卷积核扩展到3D。类似于2D卷积在空间维度的作用方式,它可以在时间维度自底向上地提取特征。基于3D卷积的方法往往能得到不错的分类精度。但是,由于卷积核由2D扩展到了3本文档来自技高网...

【技术保护点】
1.一种视频分类方法,其特征在于,包括:/n将待分类视频分为K段;/n将所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征;/n在K段中根据上一步输出结果,进行特征融合,获得每一段的综合特征,/n根据特征融合的结果进行特征增强,增加对分类重要的特征权重,同时减少不重要的特征权重;/n根据特征增强后的结果输入到分类模块,得到每段的类别;/n再通过特征融合函数融合K段的分类结果,最终得到分类结果。/n

【技术特征摘要】
1.一种视频分类方法,其特征在于,包括:
将待分类视频分为K段;
将所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征;
在K段中根据上一步输出结果,进行特征融合,获得每一段的综合特征,
根据特征融合的结果进行特征增强,增加对分类重要的特征权重,同时减少不重要的特征权重;
根据特征增强后的结果输入到分类模块,得到每段的类别;
再通过特征融合函数融合K段的分类结果,最终得到分类结果。


2.根据权利要求1所述的方法,其特征在于:
将视频分为K段及采样的方法为:将其分为3段,在每段中随机采样15到20帧左右,或者每隔1s取一次。


3.根据权利要求1所述的方法,其特征在于:
在采样后的帧通过预先训练的CNN图像特征提取模型,采用Inception网络模型,并将Inception网络的降采样层的输出作为每一帧图像的特征,然后再将其输入到循环神经网络中,采取LSTM作为循环神经网络的处理单元,最后一个时刻的输出即特征融合后的结果,过程如下:
3.1通过卷积神经网络CNN提取输入视频的空间特征;
设输入视频为X={x1,x2,…,xn},N表示每段输入视频的总帧数,通过Inception网络模型提取,输入视频的空间特征为V={v1,v2,…,vn},vi表示第i帧视频图像的特征向量,i=1,2,…,n;
3.2更新当前时刻LSTM网络状态;...

【专利技术属性】
技术研发人员:张梦超李永
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1