基于主场景镜头关键帧的体育视频分类方法技术

技术编号:3852837 阅读:239 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出一个基于主场景镜头关键帧的体育视频分类方法。该方法只采用主场景进行体育分类,而不是整个视频的帧来代表体育视频来做分类,有效的降低了视频分类的计算量。首先对视频按照镜头自动分割成多个片段,所有片段的关键帧经过基于图理论的自适应阈值聚类后,聚成了包括远景、中景、特写镜头等多个大类,中景镜头类被选取当作该体育视频的主场景镜头,这个过程不用依赖于任何先验信息,就能自动的有效的提取体育视频的主场景信息-中景镜头,剔除体育视频中多种干扰(如裁判员,观众特写,一些转播效果以及广告等镜头),最后用SVM分类器对主场景镜头关键帧进行分类,具有很高的体育视频分类准确性。

【技术实现步骤摘要】

本专利技术属于多媒体信息处理与检索领域关于体育视频分类的方法,其实质是一种利用镜头关键帧聚类后提取具有代表性信息的主场景镜头关键帧然后对其做分类的方法,是一种自动的鲁棒性强的以及运算复杂度低的体育视频处理方法。
技术介绍
现今随着计算机技术和互联网技术的发展,触手可及的多媒体信息呈现出爆炸式增长,而且这种增长越来越迅速,互联网已成为一个浩瀚的海量多媒体信息源。人们可以通过从有线电视或者IPTV录制体育视频,或者互联网下载,产生大量的视频。这种快速增长的视频数据催生了许多视频的互联网应用视频共享网站(如国外的Youtube,国内的优酷,土豆等)像雨后春笋般的呈现,专门的视频门户网站也是日益增长,这些网站对视频的存储与传播起到了重要的作用,对海量的视频数据的自动处理也提出了挑战。 体育视频在各类视频中占据重要的分量。体育视频具有实时性,体育赛事每天发生,每时每刻都有大量的新内容创造出来。用户必然需要以最快的方式得到最新的体育资讯消息,体育视频能以最大的容量呈现精彩的体育比赛场面和精彩镜头,用户对体育视频的需求也越来越广泛,越来越迫切。用户观看体育视频的针对性很强,他只关注自己喜欢的那些体育种类,对其他的体育种类很少甚至根本不关心。所以只有有效的做好体育视频分类,才能使用户快速的找到自己想要的体育视频。传统的体育视频分类是通过视频文件命名信息或者人工标注信息来进行分类,这种依赖耗费大量人力的工作显然不再适合现在海量的视频的分类。 为了实现自动的体育视频分类,需要提取体育视频中的反应体育种类的有效信息。体育视频的内容丰富,有许多信息可以用来表征这个视频的体育种类。然而,其中字幕或者比分信息由于受到电视转播机构差异性的影响,不同的电视台有不同的字幕表现形式,缺乏通用的提取方法;所以我们通过提取视频中场景信息来做体育分类。体育镜头大致分为远景、中景和特写三种。其中最具有代表的是中景镜头,因为远景包括的是场馆内的大体空间信息,而特写只包含运动员的身体或动作信息,只有中景镜头才完整的保留了该项体育运动中最主要的最本质的比赛场地信息,如场地颜色,纹理,边缘等。观察体育视频可以知道,中景镜头是体育视频中最主要的镜头,其出现的时间和次数最多。但是对于一段未知的体育视频,首先无法得到其先前知识--具有某些特征信息,如篮球的篮筐、足球的球门等,其次不知道中景镜头的起始和结束点,所以,只能通过无监督学习的方来来提取中景镜头信息。对一个视频先进行镜头分割,然后选取每一个镜头的关键帧,再提取其鲁棒特征,特征相近的帧聚到一起成为一类。通过不停的迭代直到聚类结果满足一定的终止条件。这样将所有的关键帧聚成许多个大类,其中最大的类就是中景镜头,代表这个体育视频。 专利技术的内容 为了设计一个自动的体育视频分类系统,快速有效的识别体育种类,提高识别率,本专利技术提出一个基于镜头关键帧聚类的体育视频分类的方法。该方法首先采用自适应阈值的基于图理论的聚类方法,提取体育视频的所有属于中景镜头类的关键帧作为主场景,然后通过支持向量机(SVM)来仅仅对主场景进行分类,而不是视频的每一帧,从而达到自动的决定未知视频的体育种类,大大减少了计算量。具体来说是先对视频按照进行镜头自动分割,把视频分成多个片段,每个片段属于一个摄像机镜头拍摄的连续帧,然后在这些帧里边选取关键帧代表这个片段,再对关键帧提取鲁棒性特征,将其映射到特征空间去,空间中相近的点聚集到一起,其次在自适应阈值的基于图理论的聚类结果中,选取的属于中景镜头的那类作为主场景,最后用SVM分类器对主场景进行分类,判断其匹配之前训练好的多个体育模型中的哪一个。 本专利技术提出的这种利用镜头关键帧聚类的方法,使得不用依赖于任何先验信息,就能自动的有效的提取体育视频的主场景信息-中景镜头,剔除体育视频中多种干扰(如裁判员,观众特写,一些转播效果以及广告等镜头),大大提高了体育视频分类的准确性。 附图说明 图1为本专利技术的系统总体框图 图2为视频镜头分割及关键帧提取模块框图 图3为基于图理论的自适应阈值聚类算法及主场景选取流程图 图4为体育分类算法流程图 图5为体育视频中常见的几类镜头 具体实施例方式 下面结合附图具体对本专利技术作进一步的详细描述。如图5所示,体育视频中分远景,中景,特写等多种镜头,分布在视频的各个时间段,本专利技术能有效的将这些散布的镜头根据他们共同的特点聚集在一起,并在其中提取出属于中景镜头的那一类关键帧,以做体育视频分类。 如图1所示,本专利技术方案分以下步骤 (1)、自动镜头分割及关键帧提取; (2)、提取关键帧图片的鲁棒性特征; (3)、自适应阈值的基于图理论聚类算法以及主场景类选取; (4)、SVM分类器分类。 下面是对各步骤的详细说明 1、自动镜头分割及关键帧提取 视频往往是由众多镜头经过剪辑拼接而成。一个镜头表示一个摄像机连续拍摄的帧序列。自动镜头分割就是从一段连续视频当中找出每次镜头切换的具体位置,把整段的视频按照镜头为单元分割成片段。为了对镜头进行准确和快速的分割,根据场景突变作为镜头切换的判断依据。 本系统采用两个传统的帧间差来衡量前后帧之间的场景差异。一个是颜色直方图差(HDM),一个是空间差(SDM)。 定义第t帧ft和第t+1帧ft+1图片中,It(i,j)和It+1(i,j)表示是坐标为(i,j)的像素点的强度;Ht(k)和Ht+1(k)表示L阶颜色直方图的第k阶。帧的分辨率为M×N,于是 颜色直方图差(HDM)可以写成 空间差(SDM)可以写成 式中,p∈[1,+∞)。通常情况下当p=1或p=2时,上述公式实际上就是欧式距离。 对视频的每一帧,求出它的上述两种距离,当一帧的两个距离值的和大于事先设定的阈值时,认为这是一个场景的突变,也就是镜头的切换点。 最后在一段视频段中,提取中间时刻点的一帧作为该视频片段的关键帧。 2、提取关键帧图片的鲁棒性特征 体育视频的各种场景(见图6)中最显著的区别就是颜色特征。因为远景包含场馆的建筑构造和观众席远景,中景主要是体育赛事场地信息,特写只有运动员球服,躯体的相关信息,几乎没有任何场地信息。利用颜色特征就能很好的区分它们。 HSV色彩属性模式是根据色彩的三个基本属性色相、饱和度和明度来确定颜色的一种方法,它接近人的视觉感知。从RBG色彩空间到HSV空间的转换 一种颜色如果在三原色光模式中三个因数分别为红(R)、绿(G)和蓝(B),将0-255的数值转换为0.0-1.0,如果三个因数中最大的值为Max,最小的值为Min,代入下式 V=Max 这样,对每一幅图片,将其所有的像素点做量化,量化成8个H(Hue)分量,3个S(Saturation)分量,以及3个V(Value)分量,并分别做统计。这样每个图像就用一个72维的向来来表征。每一维表示该分量上的像素点个数。最后对这72维向量做归一化。 本系统不对图片做分块是因为考虑到体育视频镜头总是在移动的,每次拍摄到的图片不是严格对准的,但是这些图片他们大致的主颜色分布是一样的,比如足球比赛每次拍摄禁区的图片中,禁区的位置、边缘、大小存在区别,但是禁区占图片的比重基本不变。所以只提本文档来自技高网...

【技术保护点】
一个基于主场景镜头关键帧的体育视频分类的方法,其特征在于包括以下步骤: 第一步,对体育视频进行镜头切割,关键帧提取,特征提取; 第二步,基于图理论的自适应阈值聚类算法以及主场景选取; 第三步,基于主场景镜头关键帧的体育视频 分类。

【技术特征摘要】

【专利技术属性】
技术研发人员:董远黄煜斌
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1