一种视频语义分析方法技术

技术编号:15070207 阅读:70 留言:0更新日期:2017-04-06 17:23
本发明专利技术提供了一种视频语义分析方法,该方法包括以下步骤:S1:对视频训练集进行预处理,并构建稀疏线性解码器;S2:加入拓扑特性约束建立拓扑线性解码器,并将视频训练集进行图像分块处理从而训练拓扑线性解码器;S3:将训练好的拓扑线性解码器的参数作为卷积神经网络中卷积层的初始参数;S4:采用多倍交叉验证的方式并基于视频训练集建立关键帧集合对卷积神经网络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类。本发明专利技术提出的模型训练方法更具有应对内容多变的视频类数据样本,提高模型的准确性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及视频语义检测
,具体而言涉及一种视频语义分析方法
技术介绍
为了实现视频语义概念的检测,使用了卷积神经网络模型对视频的关键帧集合进行特征提取的方法,实验证明不同于其他的手动设计特征的提取方式,卷积神经网络模型本身是从数据中提取出分布式特征,即得到的特征是数据驱动形式的从而能够适应更广的领域。然而卷积神经网络是有监督学习模型,即在对卷积神经网络模型进行训练的时候,需要训练数据集,也需要训练数据集对应的标签,而且卷积神经网络的收敛也需要大量的样本不断的迭代,这对于海量的视频数据的分类检测等任务来说,无法得到每个视频对应的标签。针对于视频数据上采用具有有监督训练特性的卷积神经网络模型,虽然前人基于无监督训练的基础上提出了无监督预训练的方法,解决了传统的卷积神经网络收敛慢的问题;而相比较于图片数据,视频数据在内容上会有着同一个目标的旋转,缩放,平移等现象,这就需要所使用的特征提取器能够抓取更多复杂不变性的特征,所以如何很好的提取具有较强不变性的特征成了所需要解决问题。
技术实现思路
本专利技术目的在于提供一种视频语义分析方法,通过将无监督预训练方法的优势和拓扑特性相结合,使得卷积神经网络能够使用比以往更少的有标签样本,且能够加速收敛到稳定值。并且基于拓扑特性的引入,使得模型能够提取到具有更强应对目标平移,物体缩放,对象旋转的特征,提高模型对语义分析检测的准确性和鲁棒性。为了解决以上技术问题,本专利技术采用的具体技术方案如下:一种视频语义分析方法,其特征在于包括以下步骤:S1:对视频训练集进行预处理,并构建稀疏线性解码器;S2:在稀疏线性解码器上加入拓扑特性约束得到拓扑线性解码器,并将视频训练集进行图像分块处理建立基于图像块的训练集从而训练拓扑线性解码器;S3:将训练好的拓扑线性解码器的权重参数作为卷积神经网络中卷积层的初始参数;S4:采用多倍交叉验证的方式,并基于视频训练集建立关键帧集合对卷积神经网络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类。在所述的稀疏线性解码器模型构造过程中,先定义一个线性解码器模型,然后在该模型上引入权重衰减和稀疏正则化项,通过对应的项系数来调整该正则项与整个目标函数之间的重要相关性,具体实现过程如下:过程S11:令视频训练集中的视频数量用m表示,其中第mf个视频的共有mF(mf)帧图像帧,且该视频的标签为y(mf);先将这m个视频的所有图像帧提取出来,并令每个图像帧的大小为n×n×3,其中n每幅图像帧的宽和高,3表示采用的是RGB彩色制式;设立滑框大小为k×k,滑动步长为p,则通过滑框滑动,一幅图像帧可提取共个图像块,整个视频训练集共可提取个图像块;将每个图像块拉成长度为k×k×3的向量x,并将所有的图像块之间进行乱序,并按每批次为bS个训练样本,分成nbS=M/bS个批次,最后得到的数据集作为训练拓扑线性解码器的训练集;过程S12:先定义线性解码器的模型,由第一层为输入层,第二层为隐藏层,第三层为输出层构成,其中每层神经元个数分别为nL1,nL2,nL3,其中nL1=nL3;第一层、第二层间与第二层、第三层间的权重参数分别为和分别表示第nl+1层的第j个神经元与第nl层的第i个神经元之间连接上的权值和第nl+1层的第j个神经元的偏置值,nl∈{1,2本文档来自技高网...

【技术保护点】
一种视频语义分析方法,其特征在于包括以下步骤:S1:对视频训练集进行预处理,并构建稀疏线性解码器;S2:在稀疏线性解码器上加入拓扑特性约束得到拓扑线性解码器,并将视频训练集进行图像分块处理建立基于图像块的训练集从而训练拓扑线性解码器;S3:将训练好的拓扑线性解码器的权重参数作为卷积神经网络中卷积层的初始参数;S4:采用多倍交叉验证的方式,并基于视频训练集建立关键帧集合对卷积神经网络进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到的特征输入到支持向量机中进行基于视频语义的分类。

【技术特征摘要】
1.一种视频语义分析方法,其特征在于包括以下步骤:
S1:对视频训练集进行预处理,并构建稀疏线性解码器;
S2:在稀疏线性解码器上加入拓扑特性约束得到拓扑线性解码器,并将视频训练集
进行图像分块处理建立基于图像块的训练集从而训练拓扑线性解码器;
S3:将训练好的拓扑线性解码器的权重参数作为卷积神经网络中卷积层的初始参
数;
S4:采用多倍交叉验证的方式,并基于视频训练集建立关键帧集合对卷积神经网络
进行微调,建立一个基于视频数据的通用特征提取器,最后将训练集与测试集上提取到
的特征输入到支持向量机中进行基于视频语义的分类。
2.根据权利要求1所述的一种视频语义分析方法,其特征在于:在所述的稀疏线
性解码器模型构造过程中,先定义一个线性解码器模型,然后在该模型上引入权重衰减
和稀疏正则化项,通过对应的项系数来调整该正则项与整个目标函数之间的重要相关
性,具体实现过程如下:
过程S11:令视频训练集中的视频数量用m表示,其中第mf个...

【专利技术属性】
技术研发人员:詹永照詹智财张建明彭长生
申请(专利权)人:江苏科海智能系统有限公司江苏大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1