一种重要新闻事件检测和摘要的方法技术

技术编号:3603174 阅读:164 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于视频分析和检索技术领域,具体涉及一种重要新闻事件检测和摘要的方法。现有的视频摘要方法主要是针对一段视频进行摘要,但如何在多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要,现有技术并没有涉及。本发明专利技术首先使用视频事件相似度的度量方法,计算出新闻视频库里所有新闻事件的相似度;然后,使用聚类算法,把同一新闻事件的不同报道分割为一个个聚类;最后,根据每个事件聚类中的成员数目及播报的频道和时间,自动检测重要新闻事件,并按照重要度高低,形成用户指定时间的新闻摘要。实践结果表明,本发明专利技术能够有效检测重要新闻并形成相应的新闻摘要。

【技术实现步骤摘要】

本专利技术属于视频分析和检索
,具体涉及。
技术介绍
随着电视台视频节目的积累、网上数字视频的增加,以及数字图书馆、视频点播、远程教学等大量的多媒体应用,如何有效组织海量视频数据库,以方便人们的快速浏览和检索,一直是计算机领域的热点问题。在各种类型的视频中,新闻视频可以说是最重要的一种视频形式。它不仅具有重要的现实利用价值,还具有宝贵的历史珍藏价值,对于政府、电视台、新闻媒体及普通用户都是不可缺少的。目前,除了已有的海量新闻视频库以外,全世界每天都有大量的新闻报道,人们不可能观看全世界所有国家所有频道的所有新闻报道。在这种情况下,下列应用对于人们是至关重要的,例如(1)人们需要观看关于同一个新闻事件的不同报道,如关于伦敦爆炸事件的新闻汇总,以了解世界不同媒体的报道视角和报道内容等;(2)在人们不知道当天发生什么新闻事件的前提下,他们希望观看当天的重要新闻事件;(3)在每天新闻报道难以计数的情况下,人们也会希望看到当天新闻报道的一个摘要。在上述这些应用中,一个基本的问题是如何找到同一个事件的不同报道 全世界不同国家、不同地区、不同频道对同一个新闻事件的报道,画面及内容会有很大区别。即使是同一国家的同一地区的同一频道对同一个事件的报道,即使播出的时间不同,内容也会有所差异。如黄金时间的简短报道和其它时间的详细报道。因此,让计算机自动检测不同的新闻报道是否属于同一个事件,是现有技术面临的一个非常困难的技术问题。在上述这些应用中,要解决的两个基本的问题是(1)如何度量两个新闻视频的相似度 (2)如何把同一事件的新闻报道聚类在一起 关于新闻视频的研究,目前已经有了一些工作。但大多数研究集中在新闻事件的检测上。因为新闻视频由新闻事件组成,而每一个新闻事件基本上先由播音员概要介绍该事件的主要内容,然后是关于该事件的详细报道。根据这个视频结构,新闻事件检测的基本方法是播音员的检测,因为两个播音员之间通常是一个新闻事件。播音员检测的基本方法包括播音员建模的方法(文献“Automatic parsing of news video,”)和基于新闻结构的聚类方法(文献“The Segmentation ofNews Video into Story Units,”)。另外,一些大型的新闻视频检索系统也已经出现,如CMU的InfoMedia项目,目前已经发展到InfoMedia II。国立新加坡大学的VideoQA系统。InfoMedia项目的最新进展是提出了Video Collages,以此作为一个有效接口来浏览和检索新闻视频库。该系统支持用户通过地图、文本和其它结构化信息进行的检索。在VideoQA系统里,用户通过文本信息进行检索,系统返回相关的新闻片断作为答案。已有的新闻检索系统,主要是基于查询的检索用户给出要查询的新闻例子,系统检索新闻视频库里是否有该新闻 如有,则返回检索到的新闻作为答案。这种方法要求用户必须有一个查询例子,但是,当用户没有查询例子时,这种方法则无法检索。实际上,没有查询例子的检索,如查询“今天的重要新闻是什么 ”,“播放今天重要新闻的一个摘要”等,即关于重要新闻事件检测和摘要的方法,目前还没有看到相关的工作、文献和专利。
技术实现思路
针对上述现有技术的不足,本专利技术的目的是提出。该方法能够在新闻视频数据库里,自动检测重要新闻,并按重要度从高到低形成用户指定时间的新闻摘要,从而更加充分发挥视频分析和检索技术在当今信息社会中的巨大作用。本专利技术的目的是这样实现的一种重要新闻事件检测的方法,包括以下步骤(1)使用视频片断相似度的度量方法,计算出新闻视频库里所有新闻事件的相似度;(2)根据新闻事件的相似度,采用聚类算法,把所有新闻事件分割为一个个新闻事件聚类;(3)基于上述得到的事件聚类,根据聚类中的成员数目及播报的频道和时间信息,检测出新闻中的重要事件。具体来说,在上述步骤(1)中,首先进行镜头边界检测,把新闻视频库中的每个新闻事件分割为镜头;然后把每对相似镜头的相似值作为权值赋给G={X,Y,E}的每条边,这时的G就转化为一个带权的二分图,其中,X和Y表示两个新闻事件,E表示事件X和Y中每对镜头的相似值。使用图论的最优匹配算法,计算两个新闻事件X和Y的相似度为SimOM(X,Y)=ωOM(X,Y)min(p,q)---(1)]]>其中,ωOM(X,Y)是在最优匹配算法以后得到的总权值。p和q表示事件X和Y的镜头数目,min(p,q)表示取p和q中的较小值,它的作用是把ωOM(X,Y)正则化到。更进一步,步骤(1)中,进行镜头边界检测最好使用时空切片算法。计算两个新闻事件X和Y的相似度时,采用的图论的最优匹配算法最好是Kuhn-Munkres算法。再具体来说,在上述步骤(2)中,采用的聚类算法如下给定新闻视频库中的所有事件,把所有事件之间的相似度建模为一个带权图G=(V,E),其中,V是新闻事件的集合,E是边的集合,表示新闻事件之间的相似度。本专利技术分解G为一个个子图(或聚类)。分解的原则是最小化聚类里的距离,同时最大化聚类间的距离。基于这个原则,本专利技术采用了标准化分割算法(Normalized Cut),循环地分解G为事件的聚类。标准化分割算法可以全局优化地分割G为两个不相邻的集合A和B,这是通过最小化下列公式实现的Ncut(A,B)=cut(A,B)volume(A)+cut(A,B)volume(B)---(2)]]>其中cut(A,B)=ΣX∈A,Y∈BSimOM(X,Y)---(3)]]>volume(A)=ΣX∈A,Y∈VSimOM(X,Y)---(4)]]>volume(B)=ΣX∈B,Y∈VSimOM(X,Y)---(5)]]>cut(A,B)是集合A中的事件和集合B中事件相似度的总和,volume(A)是集合A和集合V中事件相似度的总和,volume(B)是集合B和集合V中事件相似度的总和,SimOM(X,Y)是指公式(1),表示事件X与事件Y的相似度。公式(2)可以表示为D-12(D-W)D-12z=λz---(6)]]>其中,D和W是|V|×|V|的矩阵,D是一个对角阵,D(X,Y)=Σy∈VSimOM(X,Y),]]>W是一个对称阵,W(X,Y)=SimOM(X,Y)。在公式(6),对应第二小特征值的特征向量被用于找到集合A和B。0被选择作为分割点,分割特征向量成为对应集合A和B的两个部分。上述算法被循环使用,直到某个聚类里所有事件相似度的平均值小于μ+ασ,μ和σ分别是图G中所有事件相似度的均值和方差,α是一个试验参数。更进一步,步骤(3)中,检测重要新闻事件并形成摘要使用下面两个规则(A) 聚类大小规则即一个事件播报次数的多少决定它是否是重要事件,根据用户指定的摘要时间,按照事件聚类成员的数目,从高到低选择重要事件;(B) 播报的频道本文档来自技高网
...

【技术保护点】
一种重要新闻事件检测的方法,包括以下步骤:    (1)计算出新闻视频库里所有新闻事件的相似度;    (2)根据新闻事件的相似度,采用聚类算法,把所有新闻事件分割为一个个新闻事件聚类;    (3)基于上述得到的事件聚类,根据聚类中的成员数目及播报的频道和时间信息,检测出新闻中的重要事件。

【技术特征摘要】

【专利技术属性】
技术研发人员:彭宇新吴於茜陈晓欧
申请(专利权)人:北大方正集团有限公司北京北大方正技术研究院有限公司北京大学计算机科学技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利