四层结构的体育视频中足球项目检测系统及实现技术方案

技术编号:5339368 阅读:365 留言:0更新日期:2012-04-11 18:40
本发明专利技术提出了四层结构的体育视频中足球项目检测系统及实现。该系统首先采用镜头边界检测对整个视频进行分析,将相同切换方式和运动特征的相邻片段归为一类称为视频夹,同时统计视频片段的持续时间,映射到码本上做成直方图,与已有模板进行比对实现第一层分类。第二阶段对片段提取关键帧,然后提取局部和全局特征,使用多码本的方式进行特征映射,使用SVM进行主场景的分类,得到相应的基于关键帧的图片打分;第三阶段将关键帧代表的片段映射到相应的视频夹中进行加权,得到相应的分类结果;最后与第一次分类的结果进行后融合得到最终结果。本发明专利技术具有较高的识别精度和速度,可以有效的进行体育类型的识别,适用于体育节目机器标注、广告推荐等。

【技术实现步骤摘要】

本专利技术属于多媒体信息处理与检索领域关于体育视频分类的方法,涉及到体育视 频镜头构成特点统计分析和视频底层特征提取分类。本专利技术引入对不同类别体育镜头剪 辑方式和景别构成的分析统计形成剪辑模版,并在系统对镜头关键帧进行SVM分类的基础 上,对进行有效结合,采用对关键帧打分的时间段加权并与剪辑方式模版匹配结果进行融 合。提出了一种高精度识别体育视频中足球项目的四层体系检测系统,在更换相应的训练 样本后,可以有效的进行其他体育类型的识别,适用于体育节目机器标注、广告推荐等。
技术介绍
随着数字视频技术及相关传输、存储技术的提高,数字视频与人们日常生活关系 越来越密切。在广播电视领域已经逐步取代传统的模拟信号方式,互联网上的应用更是得 到了充分的发展,已经出现了以^utube,优酷为代表的大数据量视频网站;主流搜索引擎 如谷歌百度等也已经推出专门的视频搜索产品;垂直搜索引擎如雷搜也已经出现。专门的 视频门户网站也是日益增长,这些网站对视频的存储与传播起到了重要的作用,对海量的 视频数据的自动处理也提出了挑战。体育视频在各类视频中占据重要的分量。体育视频具有实时性,体育赛事每天发 生,每时每刻都有大量的新内容创造出来。用户必然需要以最快的方式得到最新的体育资 讯消息,体育视频能以最大的容量呈现精彩的体育比赛场面和精彩镜头,用户对体育视频 的需求也越来越广泛,越来越迫切。用户观看体育视频的针对性很强,他只关注自己喜欢的 那些体育种类,对其他的体育种类很少甚至根本不关心。所以只有有效的做好体育视频分 类,才能使用户快速的找到自己想要的体育视频。传统的体育视频分类是通过视频文件命 名信息或者人工标注信息来进行分类,这种依赖耗费大量人力的工作显然不再适合现在海 量的视频的分类。为了实现自动的体育视频分类,需要提取体育视频中的反应体育种类的有效信 息。体育视频的内容丰富,有许多信息可以用来表征这个视频的体育种类。然而,其中字 幕或者比分信息由于受到电视转播机构差异性的影响,不同的电视台有不同的字幕表现形 式,缺乏通用的提取方法;所以我们通过提取视频中场景信息来做体育分类。体育镜头大 致分为远景、中景和特写三种。采用模式分类的方式由镜头图片代表该段所代表的体育类 型。在实用过程中,我们发现由于镜头冗余和现阶段特征分类算法的鲁棒性问题,结 果并不理想。因此我们引入对于不同体育类别节目中视频剪辑方式的分析,比如对于赛车 类型,为保证观看的连贯性,视频剪辑以远景、长镜头为主,而对于足球运动,为及时捕捉精 彩镜头,摄像机会频繁切换,并以中景为主,根据这种在体育类型间有明显区别的,并且同 种体育类型具有共性的特征,我们通过统计该体育不同类型镜头平均持续时间和频次,可 以得到该体育类型镜头剪辑方式模版,用于粗分类;同时的,关键帧为基础的模式分类方 式忽略了在多个关键帧在体育类型上的连续性,时间相邻镜头有很大的可能表述的是相同的体育概念,我们根据运动特征,剪辑特征等将时间相邻的镜头聚为一个视频片段(video clip),在关键帧分类之后加入相应的连续时间段加权,最后同剪辑的模板结果融合,得到最终结果。本专利技术通过分析体育视频镜头剪辑方式和底层特征两方面的特性,制定了一个能 够进行特定项目的体育视频分类标准。提出了基于机器学习方法的体育视频检测四层体 系。主要包括镜头剪辑统计,关键帧模式分类,视频片段加权和后融合四个方面。在关键帧 视频分类引入多码本分类方式,在后融合方面引入logistic回归方式。在保证高精度的同 时尽量减少系统开销,在体育类型检测及人工标注、广告推荐方面具有很好的应用前景。
技术实现思路
为提高体育视频特定种类的识别效率和准确率,本专利技术提出了基于机器学习方法 的体育视频检测四层体系。该系统首先采用镜头边界检测技术(Shot Boundary Detect, SBD)技术,根据镜头切换方式和剪辑方式对整个视频进行分析,结合运动特征(光流等)将 切换方式相同、运动特征相同的相邻片段归为一类,称为视频夹(video clip),同时的,根 据统计视频各个片段出现的持续时间,映射到特定码本上做成直方图形式,与已有模板进 行比对,得到K-L距离后实现第一层分类。第二阶段对片段提取关键帧作为该视频内容的 代表,然后提取局部和全局特征,使用多码本的方式进行特征映射,使用SVM进行主场景的 分类,能够得到相应的基于关键帧的图片打分;第三阶段将关键帧代表的片段映射到相应 的视频夹(video clip)中进行加权得分,得到相应videoclip的分类结果;最后与第一次 分类的结果进行后融合,得到最终结果。基于上面的四层结构,第一阶段需要足够的真实体育视频进行分析,本专利技术对现 实体育视频中足球进行识别,选取欧洲电视台ESPN和法国体育视频Orangesports源进行 分析,其中ESPN共200小时,OrangesportsHO小时,在大量人工标注下,能够界定的纯粹 足球视频共有50小时,为进行比较,我们同时标注了出现频率比较高的体育视频如篮球、 网球、拳击、游泳四种作为实验的负样本。第二阶段的特征提取为精度和系统开销的考量, 我们选取DenseSift,Shape Context, LBP, EDH四种特征进行提取,映射过程中采用了多 码本的技术。第三阶段加权经过实验,平均值加权具有最好的效果;第四阶段后融合采用 logistic回归方式确定两个结果的权重。附图说明图1为四层结构的体育视频中足球检测体系流程概要2为足球类型剪辑方式统计及其他类型对比图3为基于关键帧的SVM分类流程概要4为不同特征的分类效果对比5为关键帧结果映射到视频夹的示意61ogistic回归流程7为四层结构体育视频中足球检测体系总体框架图具体实施例方式本专利技术通过分析体育视频镜头剪辑方式和底层特征两方面的特性,制定了一个能 够进行特定项目的体育视频分类标准。提出了基于机器学习方法的足球体育视频检测四层 体系。主要包括镜头剪辑统计,关键帧模式分类,视频片段加权和后融合四个方面。在关键 帧视频分类引入多码本分类方式,在后融合方面引入logistic回归方式。在保证高精度的 同时尽量减少系统开销,在体育类型检测及人工标注、广告推荐方面具有很好的应用前景。下面将介绍本专利技术具体实施方法。一、镜头剪辑方式统计和视频夹聚合(一)镜头的不同剪辑方式视频往往是由众多镜头经过剪辑拼接而成。一个镜头表示一个摄像机连续拍摄的 帧序列。自动镜头分割就是从一段连续视频当中找出每次镜头切换的具体位置,把整段的 视频按照镜头为单元分割成片段。为了对镜头进行准确和快速的分割,根据场景突变作为 镜头切换的判断依据。本系统采用两个传统的帧间差来衡量前后帧之间的场景差异。定义第t帧ft和 第t+Ι帧图片中,It(i,j)和It+1(i,j)表示是坐标为(i,j)的像素点的强度;Ht(k)和 Ht+1(k)表示L阶颜色直方图的第k阶。帧的分辨率为MXN,于是颜色直方图差(HDM)可以写成A/⑴=H,(k)-Ht+l{k) \pfMxN fef式中,pe [1,+ -)0通常情况下当ρ = 1或ρ = 2时,上述公式实际上就是欧式距离。对视频的每一帧,求出它的上述两种距离,当一帧的两个距离值的和大于本文档来自技高网
...

【技术保护点】
一种结合镜头剪辑方式统计和底层特征分类的体育视频足球项目检测系统,对体育视频进行模式分类和统计匹配的处理,对特定体育类别进行识别,该方法包括:步骤一,对体育视频剪辑方式进行统计分析,形成模板匹配的结果;步骤二,体育视频统计分析后,提取对应视频段的的相应图片作为关键帧,进行基于关键帧的模式分类,得到每个视频段对应的概率;步骤三,将视频段的得分映射到视频夹中进行计算,即加入了时间信息,得到结果进行分类器阶段的后融合;步骤四,将第一步和第三步得到的结果进行加权,确定阈值后进行分类;其中,所述步骤一具体包括:步骤1,边界检测,形成视频段:对视频进行边界检测后,镜头切换点的选择是通过寻找颜色直方图差序列多个局部极值点;步骤2,对相邻视频段聚合为同一视频夹的规则:视频段在时间上是相邻的且聚合成的视频夹持续时间大于1500帧;同一视频夹具有相同的切换方式;同一视频夹下通过光流分析具有相似的运动特征;步骤3,统计视频段持续时间后,码本构造:码本为26维,其组成规则是:0~100帧,每隔10帧为一个词表;100~200帧,每隔25帧为一个词表;200~800帧,每隔50帧为一个词表;>800帧,为800帧映射到最后一个词表中;其中,所述步骤二具体包括:步骤1,关键帧提取:提取的形状上下文特征使用固定提取200个点的方式,共有4480维,在提取形状上下文特征过程中,点集精简的算法采用弦差法;对边缘方向直方图特征进行归一化处理时,采用2范数的归一化方式;步骤2,码本生成:进行多码本制作时,由于系统的主要目的在于检测体育运动中的足球,因此将足球的远中近景各200个,其他四种体育运动(篮球、网球、拳击、游泳)远中近景各200个一起建立码本;步骤3,以概率形式为关键帧打分:score=F[P(C↓[i])],其中Ci为输入图像组的第i帧,F为对应这某一特征的结果,P为对应某一类别的结果;即为图像Ci提取特征F后属于类别P的概率;在分类器训练阶段,采用一种视频为正样本,其他所有类别正样本的图像组作为该体育类别负样本的方式;其中,所述步骤三具体包括:步骤1,关键帧得分映射:将视频段的得分映射到视频夹中进行计算,即加入了时间信息,将同一视频夹中的视频段得分进行求均值处理,得到的得分即为该视频夹的得分;步骤2,后融合:在四种分类器(shape context,dense sift,LBP,EDH)下的得分经过logistic回归得到相应的权值,通...

【技术特征摘要】

【专利技术属性】
技术研发人员:董远张纪伟
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1