一种基于特征增强的视频分类算法制造技术

技术编号：24331317 阅读：48 留言：0更新日期：2020-05-29 19:42

一种基于特征增强的视频分类算法涉及视频处理技术领域，方法包括：首先将待分类视频分为K段，在每段中随机选择帧或者等距离选择帧；通过预先训练好的CNN模型来提取每一帧的图像特征，将每一帧特征输入特征融合层的池化模块，池化模块将提取的特征聚合成整个视频的压缩表示；根据每一段中的视频表示输入到特征增强层，特征增强层能够增加重要特征的权重，并减少非重要特征的权重，然后通过聚合函数从K个片段中相同类别得分得到某个类别的最终分数。本发明专利技术能够有效的提高分类效率，通过分为K段采样，解决了视频相邻帧相似度高的问题，通过特征增强层选择更重要的特征有效的提高了分类准确率。

A video classification algorithm based on feature enhancement

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征增强的视频分类算法
本专利技术属于视频信息内容发掘技术，更具体的是，设计一种基于注意力的特征增强的视频分类。
技术介绍
近年来，得益于深度学习强大的特征提取能力，视频内容的识别和分析取得了突破性进展。视频内容识别的核心在于视频特征的提取，视频特征是视频本身所具有的物理性质，能够从不同的角度反映视频内容。目前主流的视频分类的方法有三大类：基于LSTM的方法，基于3D卷积的方法和基于双流的方法。基于LSTM的方法将视频的每一帧用卷积网络提取出每一帧的特征，然后将每一个特征作为一个时间点，依次输入到LSTM中。由于LSTM并不限制序列的长度，所以这种方法可以处理任意长度的视频。但同时，因为LSTM本身有梯度消失和爆炸的问题，往往难以训练出令人满意的效果。而且，由于LSTM需要一帧一帧得进行输入，所以速度也比不上其他的方法。基于3D卷积的方法将原始的2D卷积核扩展到3D。类似于2D卷积在空间维度的作用方式，它可以在时间维度自底向上地提取特征。基于3D卷积的方法往往能得到不错的分类精度。但是，由于卷积核由2D扩展到了3D，其参数量也成倍得增加了，所以网络的速度也会相应下降。基于双流网络的方法会将网络分成两支。其中一支使用2D卷积网络来对稀疏采样的图片帧进行分类，另一支会提取采样点周围帧的光流场信息，然后使用一个光流网络来对其进行分类。两支网络的结果会进行融合从而得到最终的类标。基于双流的方法可以很好地利用已有的2D卷积网络来进行预训练，同时光流又可以建模运动信息，所以精度往往也很高。...

【技术保护点】
1.一种视频分类方法，其特征在于，包括：/n将待分类视频分为K段；/n将所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征；/n在K段中根据上一步输出结果，进行特征融合，获得每一段的综合特征，/n根据特征融合的结果进行特征增强，增加对分类重要的特征权重，同时减少不重要的特征权重；/n根据特征增强后的结果输入到分类模块，得到每段的类别；/n再通过特征融合函数融合K段的分类结果，最终得到分类结果。/n

【技术特征摘要】
1.一种视频分类方法，其特征在于，包括：
将待分类视频分为K段；
将所采样的每一帧通过预先训练的图像处理模型提取每一帧的特征；
在K段中根据上一步输出结果，进行特征融合，获得每一段的综合特征，
根据特征融合的结果进行特征增强，增加对分类重要的特征权重，同时减少不重要的特征权重；
根据特征增强后的结果输入到分类模块，得到每段的类别；
再通过特征融合函数融合K段的分类结果，最终得到分类结果。

2.根据权利要求1所述的方法，其特征在于：
将视频分为K段及采样的方法为：将其分为3段，在每段中随机采样15到20帧左右，或者每隔1s取一次。

3.根据权利要求1所述的方法，其特征在于：
在采样后的帧通过预先训练的CNN图像特征提取模型，采用Inception网络模型，并将Inception网络的降采样层的输出作为每一帧图像的特征，然后再将其输入到循环神经网络中，采取LSTM作为循环神经网络的处理单元，最后一个时刻的输出即特征融合后的结果，过程如下：
3.1通过卷积神经网络CNN提取输入视频的空间特征；
设输入视频为X＝{x1，x2，…,xn}，N表示每段输入视频的总帧数，通过Inception网络模型提取，输入视频的空间特征为V＝{v1，v2，…,vn}，vi表示第i帧视频图像的特征向量，i＝1,2,…,n；
3.2更新当前时刻LSTM网络状态；...

【专利技术属性】
技术研发人员：张梦超，李永，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人