一种基于显式共享子空间的视频广告检测方法技术

技术编号:7316975 阅读:450 留言:0更新日期:2012-05-04 04:26
本发明专利技术公开了多媒体检索技术领域中的一种基于显式共享子空间的视频广告检测方法。首先将镜头分割成语义镜头序列,提取出其中的关键帧,得到视觉特征和音频特征,进而得到显式共享子空间和两者构成的映射矩阵的特征值;然后通过选取指定的映射矩阵的特征值在显式共享子空间中对应的向量,求得视觉特征映射矩阵和音频特征映射矩阵;实现降维和特征融合操作;将特征融合得到的矩阵输入到支持向量机中进行训练,得到最优分类模型后,用其对待检测镜头进行初步判断,最后通过后处理步骤最终确定待检测镜头是否为广告镜头。本发明专利技术不需要建立广告数据库,使用起主要作用的向量对镜头检测,最后通过后处理步骤对镜头判断,提到了检测的有效性和准确率。

【技术实现步骤摘要】

本专利技术属于多媒体检索
,尤其涉及。
技术介绍
随着科学技术和信息技术的进步,特别是计算机技术、网络技术和大容量存储技术的不断发展,人们已经运用各种手段大量的采集和生产了各种类型的多媒体信息数据。 然而,随着图像和视频的长年积累,以及多媒体信息处理能力的下降,人们迫切地需要在浩瀚如海的多媒体数据中,快速而准确地找到自己感兴趣的内容。最初对多媒体信息的检索采用文本检索技术,即通过人工方式生成多媒体信息的文本描述,如文件说明、标注等,然后采用文本检索技术实现对多媒体信息的检索。这种检索方式应用于多媒体信息的检索有其固有的缺陷。第一,多媒体信息所反映的全部语义很难用文本准确描述。第二,人工描述的方法易受到标注工作人员疏忽的影响而产生错误,且工作量巨大。第三,用户对多媒体信息的理解因人而异导致人工描述方式不够客观。第四, 文本描述还受到语言的限制,如对于一个美国电影,却因为翻译的角度不一样,从而定义的中文名字也不一样。因此,研究基于内容的多媒体检索方法有着重要的现实意义。为解决这些问题,人们提出基于内容的多媒体检索技术。所谓基于内容的多媒体检索是指对多媒体数据(如视频、音频流等)所蕴藏的物理的和语义的内容进行计算机分析理解,以方便用户查询,其本质是对无序的多媒体数据流结构化,提取语义信息,保证多媒体内容能被快速检索。广告检测作为基于内容的视频检索的一个重要分支,正在引起人们越来越多的关注。这正是因为广告在人们生活中起着越来越重要的作用。作为商业信息的重要载体,广告在传递商业信息上起着无可替代的作用。许多商家花巨资为自己的产品打造精彩的广告来宣传自己的产品,扩大品牌影响力,增加销售量。作为监管企业的重要手段,相关的政府广告监测机构,如中华人民共和国国家工商行政管理总局广告监督管理司一直担任着组织、指导监督管理广告,查处虚假广告等违法行为的责任。作为获取商品信息的重要方法, 人们也在不停的接收各种各样的广告信息。随着广告业的发展,广告的数量与日俱增,广告的类型也千差万别。如何自动的识别和检测出广告,已经成为研究的热点。为此人们提出了视频广告检测系统,希望利用该系统能够自动的检测出广告,并且定位广告的位置。不同的人群对视频广告系统的具体需求不同,对于普通的电视观众,往往希望广告越少越好,这样不至于影响他们观看正常的电视节目。他们希望视频广告检测系统不仅能够完成广告的检测,还能够将广告剪切掉,这样他们就能够不受干扰的观看正常电视节目。对于商家,他们却希望观看到全面的广告,一方面,他们能够根据竞争对手的最新广告了解到竞争对手的最新动态,从而制定出合理的竞争策略。另一方面,他们也在检查自己的广告是否按照要求播放,是否达到预期的效果等等。对于政府机构,如国家工商行政管理总局广告监督管理司,广电总局等等,他们作为监管部门,对广告的内容要进行监管,看广告的内容是否违法违规,有没有欺骗观众。视频广告检测算法千差万别,但是都是利用广告节目和普通电视节目的区别,在已有的基于内容的多媒体检索系统的基础上提出的视频广告检测系统。和广告检测算法基于的原理不同,我们将广告检测系统的算法分成以下三类1.基于台标方法这种方法是利用了电视台的标识特点。我们知道,电视台在播放正常电视节目,如新闻,电视剧等的时候会将电视台的标识放在比较显眼的位置,让电视观众能够记住电视频道。而当电视台播放广告的时候,却会将自己的标识给隐藏起来。基于这样的差别,我们可以通过检测电视台标识的存在与否来看正在播放的节目是否是广告。一般情况下,电视台的台标分为三种静态台标、半透明台标和动态台标。针对三种不同的台标,人们纷纷提出相应的检索算法,从而实现广告的检测。但是这种方法的缺陷主要有以下两点第一,这种广告播放规则并不是适应于所有的电视台所有时段的电视节目;第二,半透明台标和动态台标由于本身的特点,如制作手法,表现方式等原因处理起来特别复杂,所以还没有比较成熟的广告检测和识别算法。2.基于识别的方法此方法的前提是建立庞大的广告数据库,然后采用相应的匹配算法确定待检测或识别的视频和数据库中广告的相似度,从而确定其是否为数据库中的广告。但是容易想象, 这种方法的最大的缺点就是需要建立庞大的广告数据库,同时不断人工更新广告数据库以保证随时加入最新的广告以备检测。如何在巨大的存储内容中迅速的完成查询和匹配也是一个研究难题。3.基于学习的方法为解决前两类方法存在的缺陷,人们提出一种基于学习的方法。此方法主要利用广告区别于正常节目的特征来实现广告检测。相对于普通电视节目,广告节目在某些特征方面存在着很明显的差异。这是由于广告本身的特点广告在制作的时候,因为要吸引观众的眼球,添加了各种制作手法,渲染技巧等等。比如可以通过提取一段视频帧的平均边缘变化率 A-ECR (Average of Edge Change Ratio)和边缘变化方差 V-ECR (Variance of Change Ratio)来实现检测。这主要是考虑到广告在视觉方面区别于普通电视节目,广告的边缘变化情况要比正常节目复杂的多。在音频方面,广告视频部分的音频内容和普通的节目部分的音频信息也存在一些明显的特征,比如利用音频梅尔倒频谱系数(Mel-frequency Cepstral Coefficient)和音频信息熵来实现对视频广告的检测。最新的广告检测系统往往是将两者进行融合,从而实现对广告段更加精确的检测。在近期的研究中,很多基于学习的检测方法中有引入了机器学习的方法,通过对样本的训练,获得性能比较好的分类器,然后对广告镜头和普通节目镜头进行分类,从而得到比较精确的检测结果。但现有的此类方法,未能深层挖掘不同模态下所蕴含语义的共有特性,影响了广告检测的性能。为了弥补这一缺陷同时避免前两类方法的问题,本专利技术基于第三类方法的原理, 提出一种基于显式共享子空间的视频广告检测系统,利用显式共享子空间将视觉特征和音频特征进行融合,降维,充分挖掘视觉与音频模态所蕴含的共有语义,并利用支持向量机对广告镜头进行分类,最后借助广告的时间连续性特征进行后处理矫正,从而开发出一套能够快速检测广告的系统。
技术实现思路
针对上述
技术介绍
中提到现有方法不能深层挖掘不同模态下所蕴含语义的共有特性等不足,本专利技术提出了。本专利技术的技术方案是,,其特征是该方法包括以下步骤步骤1 通过指定算法将训练集数据分割成语义镜头序列;步骤2 对语义镜头序列中的每一个镜头提取视觉关键帧,进而得到视觉特征和音频特征,求得由视觉特征和音频特征构成的映射矩阵的特征值;步骤3 根据视觉特征和音频特征求得显式共享子空间;步骤4 把映射矩阵的特征值按照从大到小的顺序排序,并选取指定映射矩阵的特征值在显式共享子空间中对应的向量,用该向量求得视觉特征映射矩阵和音频特征映射矩阵;步骤5 在步骤4的基础上,将视频特征和音频特征映射到显式共享子空间,完成视频特征和音频特征的降维,进而完成特征融合;步骤6 将由特征融合得到的矩阵输入到支持向量机中进行分类训练,利用特定方法得到最优分类模型,用其初步判断待检测镜头是否为广告镜头;步骤7 在步骤6的基础上,通过后处理步骤最终确定待检测镜头是否为广告镜头。所述指定算法为语义镜头分割算法。所述特定方法为十字交叉验证法。所述视觉特本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:朱振峰赵耀杨厚德刘楠
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术