级联手工特征与深度特征的视频关键帧检测方法技术

技术编号:23400677 阅读:90 留言:0更新日期:2020-02-22 12:52
一种手工特征与深度特征相结合的视频关键帧检测方法用于体育视频内容分析领域。基于深度特征的方法因为网络结构复杂,导致效率不高。广播视频还包括很多其他类型的镜头如中场休息、渐变镜头等。检测结果包含大量无关帧。针对这一问题,提出了一种手工特征与深度特征相结合的视频关键帧检测方法。首先基于颜色直方图特征进行镜头边界检测获取最后一帧。进一步基于直方图相似性提出一种类似聚类的方法得到候选关键帧。最后,基于深度神经网络对候选关键帧进行分类,得到真正的关键帧。在冰壶比赛视频和篮球比赛视频上的对比实验结果表明,相对于传统的背景差分法、光流法等,该方法能够快速、可靠地提取关键帧。

Video key frame detection method based on concatenated manual feature and depth feature

【技术实现步骤摘要】
级联手工特征与深度特征的视频关键帧检测方法
本专利技术主要用于体育视频内容分析领域,具体涉及图像特征提取,镜头分割,神经网络分析等数字图像处理技术。可快速有效的检测出体育视频中的关键帧,进而进行视频内容的分析。
技术介绍
视频关键帧提取即在一段成千上万帧的视频中自动提取出需要的某一帧。人工操作会耗费大量的时间和精力,关键帧检测算法的出现可根据视频的帧间特征和自身特性将关键帧快速准确的检测出来。常用的关键帧检测方法包括背景差分法、光流法等。背景差分法通过背景建模,与视频中的各帧进行比较,以此来检测运动目标。该方法检测速度较快,但受背景影响大,在背景变化剧烈的情况下会使背景建模难度增大,从而影响运动目标检测效果。光流法对于运动目标的检测效果显著,将图像中每一个像素点作为一个运动矢量,通过提取光流,检测出每个点的运动过程,从而判断运动状态,进行关键帧的检测,但光流法自身计算复杂度较大,对于上万帧的视频实用性较差。颜色直方图特征统计颜色组成利用某种距离度量策略即可判断相邻两帧的相似度,在视频关键帧检测、镜头分割领域应用比较广泛。曲阳提出了HOG和HSV相结合的方法能得到较高的查全率,但查准率比较低,而且HOG特征计算量大,耗时较多。目前深度学习在图像处理领域应用广泛,对一些典型问题如图像分类等远超传统人工特征。Wu等人面向举重视频关键姿态检测提出FCN和CNN相结合的方法,取得不错的效果。但其采用两种深度框架相结合,处理速度很慢,不能实时化。因此将手工特征和深度特征相结合是一个合理的思路。杨非凡等人采用了SIFT特征进行关键点检测,得到很多候选局部图像,进一步,在每一张图像上提取少量区域作为候选,并通过AlexNet提取候选区域的深度特征,在文中铁路视频中取得较好的效果,但因采用SIFT特征,并且每帧图像均要送入神经网络进行分类,因此速度上无法实现实时性。
技术实现思路
为解决上述问题,专利技术了一种手工特征与深度特征相结合的视频关键帧检测方法。首先基于颜色直方图特征对一场比赛视频进行镜头边界检测,获取镜头最后一帧。进一步基于直方图相似性得到候选关键帧。最后基于深度神经网络对候选关键帧进行分类,得到真正的关键帧。冰壶比赛视频通常是二到三个小时,包含数十万帧图像,通过利用简单有效的颜色直方图来进行视频的镜头分割,从20万左右的视频帧得到700个左右的候选关键帧,利用本文提出的筛选方法过滤掉大量的负样本。进一步基于深度神经网络分类模型能够准确地提取图像特征,保证了关键帧提取正确率。本专利技术的具体步骤如下:1.视频的选择选择一场完整比赛的视频,比如篮球比赛视频、冰壶比赛视频等,该视频作为本专利技术的输入。2.镜头分割本步骤是基于颜色直方图特征的镜头分割。主要是通过提取视频每一帧的颜色直方图特征,通过比较相邻两帧的特征值的距离,当此距离大于设定的阈值时,则判断此时发生了镜头跳变,保存每一镜头的最后一帧。颜色直方图特征提取颜色直方图即R、G、B三个颜色通道上各种颜色出现的概率。每个颜色通道上均是256维的向量,为了减少计算的复杂度,提高检测速度,本专利技术将每个颜色通道上特征维度量化成16维的向量。比如蓝色通道为原256维颜色向量,按照每相邻16个颜色统计值相加组合成1维,最终蓝色通道称为16维的向量。量化公式为:公式中的结果Nq(i)表示量化后第i维特征的值,No(j)表示量化前第j维特征的值。其中0≤i≤15,0≤j≤255。距离测量衡量向量之间距离的方式包括欧氏距离、余弦距离等。欧氏距离对于相邻帧图像的变化较为敏感,但相对于余弦距离计算复杂度较低,在通过调整阈值使镜头分割检测出的帧数相近的情况下,欧氏距离所需时间为余弦距离的75%。因此本专利技术采用欧氏距离作为帧间距离测量方法。公式如下,公式中x和y向量分别代表两帧的特征向量。d={∑i(x[i]-y[i])2}0.5渐变帧在视频中存在大量的渐变帧,如叠化、淡入淡出、扫换镜头,比如几帧图片属于同一个镜头,但下一帧逐渐呈现下一镜头的画面,相邻帧之间在发生叠化渐变的过程中,之间的颜色特征距离也相应增大。由于欧式距离对于帧间变化比较敏感,因此连续的渐变帧也被保留下来,事实上只有这些渐变帧中的第一帧才是所需的。因此本文通过比较每个镜头画面的长度,发现96.2%大于100帧,0.05%小于50帧,3.75%在50到100帧之间。我们最终每找到镜头的最后一帧时,后50帧直接跳过,一方面可以避免渐变帧,另一方面可以提高速度。在此步骤中,是通过设定一定的阈值进行视频镜头的划分,经过实验,我们选用欧氏距离作为距离计算方法,并将阈值设定为0.2,即当相邻两帧的特征值的欧氏距离大于0.2,则判定为镜头转换。3.候选关键帧筛选通过镜头分割保存下的每一个镜头的最后一帧的结果中,包含大量的负样本,对于视频中的广告等镜头,间隔很小就会出现突变帧,导致后续处理任务大大增加。在冰壶比赛中,大部分关键帧的相似度非常接近,为了能筛选出部分的负样本,本文提出一种类似聚类的方法:利用镜头分割步骤中提取的颜色直方图特征,减小距离阈值,在步骤二镜头分割的结果中通过随机选择k张满足该初始阈值的图片;为了不会错误的筛除关键帧,接下来把阈值增大,遍历剩余图片与k张所选图片的特征距离,满足阈值的则保留。筛选出部分负样本。因为利用镜头分割提取的视频帧中只有关键帧是特征较为集中的,其余帧特征均是在整个特征空间内随机分布,因此传统聚类方式很难筛选出关键帧。而采用本方法,可以很好的在大量通过镜头分割本文k值设定为4。该步骤使用了之前提取的特征,不用重复提取,节省了时间。候选关键帧算法如下表所示。4.基于神经网络的图片分类利用镜头分割得到的图片数据存在除关键帧以外的大量的不相关图片即负样本,本专利技术利用神经网络进行关键帧的提取。在经过步骤3的候选视频关键帧筛选后,可过滤掉大量的负样本,而保留真正的视频关键帧,但与此同时,在保留下来的视频帧中,仍然存在部分负样本,采用手工特征已不足以过滤掉这些帧,因此,在此步骤中,我们采用分类准确率更高的深层神经网络对这些视频帧进行分类。本专利技术设计了一个包含4个卷积层、4个池化层、3个全连接层的神经网络,为了防止过拟合的问题,添加了正则化损失,在前两个全连接层后都使用了dropout层,在训练过程中随机去除网络节点,在测试时保留全部节点。在不同的视频上,经过神经网络的训练,在测试环节,可有效的将视频关键帧与其他负样本分开,并且在步骤1-3的操作预处理下,可大量减少神经网络输入的图片数量,一方面可以减少网络的处理时间(尤其是在cpu的处理条件下),另一方面,可以避免对于准确率的影响。在之前的专利技术或论文中,或是将视频的每一帧或经过手工特征提取特征后,再将其送入到神经网络中进行分类操作;或是直接将每一帧送入到神经网络中,在无gpu的情况下,这种情况的运算效率特别低。而本专利技术仅仅是将整段视频20到30万帧图片中的1000张左右的图片送入到神经网络中,这样大大减少了神经网络的处理时间,并且提高了最本文档来自技高网
...

【技术保护点】
1.一种级联手工特征和深度特征的视频关键帧检测方法,其特征在于包括以下步骤:/n(1)基于颜色直方图特征的镜头分割;通过提取视频每一帧的颜色直方图特征,通过比较相邻两帧的特征值的距离,当此距离大于设定的阈值时,则判断此时发生了镜头跳变,保存每一镜头的最后一帧;/n(2)候选关键帧筛选;在利用颜色直方图特征进行镜头分割后,利用该步骤的候选关键帧筛选过程去除大量的负样本,减少后续步骤的输入;/n(3)利用神经网络对筛选过后的图片进行进一步的细分类,得到最终视频帧的结果。/n

【技术特征摘要】
1.一种级联手工特征和深度特征的视频关键帧检测方法,其特征在于包括以下步骤:
(1)基于颜色直方图特征的镜头分割;通过提取视频每一帧的颜色直方图特征,通过比较相邻两帧的特征值的距离,当此距离大于设定的阈值时,则判断此时发生了镜头跳变,保存每一镜头的最后一帧;
(2)候选关键帧筛选;在利用颜色直方图特征进行镜头分割后,利用该步骤的候选关键帧筛选过程去除大量的负样本,减少后续步骤的输入;
(3)利用神经网络对筛选过后的图片进行进一步的细分类,得到最终视频帧的结果。


2.根据权利要求1所述的方法,其特征在于步骤(1)中,基于颜色直方图特征的镜头分割的具体方法为:
颜色直方图特征提取颜色直方图即R、G、B三个颜色通道上各种颜色出现的概率;每个颜色通道上均是256维的向量,将每个颜色通道上特征维度量化成16维的向量;
距离测量采用欧氏距离作为帧间距离测量方法;当此距离大于设定的阈值0.2时,则判断此时发生了镜头跳变,保存每一镜头的最后一帧。


3.根据权利要求1所述的方法,其特征在于步骤(2)中,利用镜头分割步骤中提取的颜色直方图特征,减小距离阈值为0.1,在分割的结果中...

【专利技术属性】
技术研发人员:毋立芳赵宽简萌
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1