一种基于深度卷积神经网络的体育视频镜头分类方法技术

技术编号:13732640 阅读:58 留言:0更新日期:2016-09-21 14:23
本发明专利技术公开了一种基于深度卷积神经网络的体育视频镜头分类方法,包括以下步骤:1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。

【技术实现步骤摘要】

:本专利技术属于视频处理与机器学习领域,具体涉及一种基于深度卷积神经网络的体育视频镜头分类方法
技术介绍
:镜头分类是体育视频分析的一项基础技术,对于体育视频中特定事件检测、体育视频的检索和高级语义的提取都具有重要的意义,例如足球视频分析中特定事件的检测(红黄牌、射门、比赛中断等)和特定球员的检测都需要用到镜头分类的结果。一个准确快速的镜头分类方法对于后续分析性能的提高将产生极大的帮助。在体育比赛的转播视频中,通常可以将镜头分为三类:远景镜头、中景镜头和特写镜头。远景镜头拍摄的是大部分场地,中景镜头是对场地中局部区域的某些球员和场景进行拍摄,特写镜头是对运动员的半身特写或动作信息。其中的中景镜头和特写镜头除了对场地进行拍摄外,还包括对场外观众的拍摄。当前区分以上几类镜头的方法主要是通过计算主颜色区域的面积比率。这类方法将镜头中场地的颜色确定为主颜色(如足球场地以绿色为主颜色),然后再根据主颜色在镜头中占据的面积比率来判断该镜头所属的类别,并认为拥有较大的主颜色面积比率的镜头是远景镜头,而较小的主颜色面积比率的镜头是特写镜头。由于该方法所用主颜色面积比率特征在中景镜头和特写镜头中受到背景颜色干扰较大,限制了最终的镜头分类精度。
技术实现思路
:为了克服现有技术的不足,本专利技术提供一种基于深度卷积神经网络的体育视频镜头分类的方法。本专利技术通过深度卷积神经网络,学习数据库中每类镜头的图像特征,在测试时直接选取卷积神经网络softmax层最大回归值对应的类别作为镜头分类的结果,使对于给出的关键帧能自动进行所属镜头的分类。本专利技术能够提高镜头分类的精度,且具有较好的可行性和鲁棒性。为达到上述目的,本专利技术采用如下技术方案来实现的:一种基于深度卷积神经网络的体育视频镜头分类方法,包括以下步骤:1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。本专利技术进一步的改进在于,所述步骤1)中,将镜头类别标签分为6种:远景镜头,场内中景镜头,场外中景镜头,场内特写镜头,场外特写镜头,和不属于这5种镜头的其他镜头。本专利技术进一步的改进在于,所述步骤2)中,每个输入图像都被缩放为256×256大小,并从中随机截取224×224大小的方形区块,以RGB三个颜色维度
输入;第一、第二和第五卷积层的激励输出后,经过最大池化下采样操作,输出给下一个卷积层;深度卷积神经网络最终输出维数为6的神经元响应,对应于待分类图像的6种镜头种类。本专利技术进一步的改进在于,所述步骤3)中,训练时卷积神经网络使用一些不同的小随机数初始化神经网络的参数。与现有技术相比,本专利技术具有以下有益效果:本专利技术所述的基于深度卷积神经网络的体育视频镜头分类方法,设计的深度卷积神经网络以关键帧图像作为网络的输入,隐式地学习每类镜头中的图像特征,进而使用该特征更加有效地进行镜头分类。附图说明:图1为本专利技术的流程示意图。图2是本专利技术实例中卷积神经网络的结构示意图。具体实施方式:下面结合附图对本专利技术做进一步详细描述:参考图1,本专利技术所述的基于深度卷积神经网络的体育视频镜头分类的方法,包括以下步骤:1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列。从每个镜头片段中选出5张的关键帧图像,并对每张图像贴上标签,构造训练样本集。将镜头类别标签分为6种:远景镜头,场内中景镜头,场外中景镜头,场内特写镜头,场外特写镜头,和不属于这5种镜头的其他镜头。2)构造七层深度卷积神经网络(Convolutional Neural Network,CNN),该七层卷积神经网路包括:五个卷积层,三个全连接层。每个输入图像都被缩放为256×256大小,并从中随机截取224×224大小的方形区块,以RGB三个颜色维度输入。第一、第二和第五卷积层的激励输出后,经过最大池化下采样操作,输出给下一个卷积层。深度卷积神经网络最终输出维数为6的神经元响应,对应于待分类图像的6种镜头种类。如图2所示,输入图像经过每一层的具体过程包括:第一层卷积层由96个大小为55×55的特征图组成。经过Max Pooling操作,输出96个27×27大小的特征图。第二层卷积层由256个大小为27×27的特征图组成。经过Max Pooling操作,输出96个13×13大小的特征图。第三层卷积层由384个大小为13×13的特征图组成。第四层卷积层由384个大小为13×13的特征图组成。第五层卷积层由256个大小为13×13的特征图组成。经过Max Pooling操作,输出256个6×6大小的特征图。第六层和第七层为全连接层,输出4096维的特征向量。第八层为全连接层,输出一个6维的特征向量,由softmax层分类并输出分类结果。卷积神经网络的卷积层可以表示如下:第l层的第j个特征图矩阵可能由前一层若干个特征图卷积加权得到, x j l = f ( Σ i ∈ N j x i l - 1 * k i j l + b j l ) - - - ( 1 ) ]]>其中,f为神经元激活函数;Nj代表输入特征图的组合,*表示卷积运算,
为卷积核矩阵,为偏置矩阵。采样过程可以表示为: x j l = f ( d o w n ( x j l - 1 ) ) - - - ( 2 ) ]]>其中,down(·)表示采样函数,常用的有最大值采样函数(Max Pooling)。采样过程与卷积过程类似,使本文档来自技高网
...

【技术保护点】
一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,包括以下步骤:1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。

【技术特征摘要】
1.一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,包括以下步骤:1)对已有足球视频进行镜头分割,每个镜头是由某个摄像头拍摄的一段连续的图像序列,从每个镜头片段中选出3~10张的关键帧图像,并对每张图像贴上镜头类别标签,构造训练样本集;2)构造七层深度卷积神经网络,该七层卷积神经网路包括:五个卷积层,三个全连接层;3)利用步骤1)中的训练样本对步骤2)中所述深度卷积神经网络模型进行训练,卷积神经网络的训练利用softmax回归作为分类算法,使用误差后向传播算法调整CNN的网络参数;4)利用步骤3)训练得到的卷积神经网络模型对测试样本集进行测试,并输出最终图像的镜头分类结果。2.根据权利要求1所述的一种基于深度卷积神经网络的体育视频镜头分类方法,其特征在于,所...

【专利技术属性】
技术研发人员:王进军张顺刘桢琦
申请(专利权)人:西安北升信息科技有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1