采用运动描述符归纳视频的方法技术

技术编号:3611387 阅读:201 留言:0更新日期:2012-04-11 18:40
本发明专利技术的方法测定压缩视频中的运动活性的强度。使用运动活性的强度把视频分割成累积运动活性相等的段。其次,从各段选择关键帧。以时间顺序把选择了的关键帧连结起来,形成视频的归纳。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术一般地涉及视频,特别涉及压缩视频的归纳。
技术介绍
希望自动地生成视频的归纳,特别是生成压缩数字视频的归纳。压缩视频格式MPEG(活动图像专家组)采用了作为数字信号来压缩视频的标准的规格。MPEG规格通过仅偶然作成有关图像的整帧信息,实现了高的数据压缩率。完整的图像帧、即帧内编码帧多称为「I帧」或「固定帧」,它包含对一切其它帧独立的整帧信息。图像差帧、即帧间编码帧多称为「B帧」及「P帧」、或「预测帧」,在I帧间将其编码、它只反映与基准帧的图像差、即余额。通常,把视频序列的各帧分割成更小的图像元素、即像素数据的块。对各块进行离散余弦变换(DCT)操作,把统计上依赖的空域像素变换成独立频域DCT系数。对于称为「宏块」的、每一个为8×8或16×16像素的块进行DCT操作,提供编码信号。由于DCT系数通常是能量集中的,故在1个宏块中只须少量的系数就包含了图像信息的主要部分。例如,当宏块包含目标的边缘边界时,该块的能量在系数的矩阵范围内包含较大的DC系数及随机分布的AC系数。另一方面,非边缘宏块通常以同样大的DC系数、及实质上比与该块有关联的其它系数大的少量的相邻AC系数为特征。通常,在对DCT系数进行了自适应量化后,对其进行游长编码及可变长编码。因此,发送数据的宏块通常包含不到8×8矩阵的码字。帧内编码帧数据、即编码P或B帧数据的宏块包含只表示预测像素与宏块中的实际像素之间之差的DCT系数。帧内编码帧数据及帧间编码帧数据的宏块还包含采用了的量化级、宏块的地址指示符或位置的指示符、及宏块的类型等信息。后者的信息多称为「标题」或「内务操作」信息。从上一个I帧或P帧来预测各P帧。从夹住各B帧的I帧或P帧来预测该B帧。预测编码过程包含生成表示I帧的哪个宏块的位移量与当前正在编码的B帧或P帧的宏块匹配得最密切的、常常称为「运动矢量」的位移矢量。对于每一个像素,从正在编码的P帧或B帧的块中减掉I帧中匹配块的像素数据,就出现了余额。变换了的余额及矢量,形成P帧或B帧编码数据的一部分。视频分析可以把视频分析作为打算理解视频内容的视频处理来定义。视频的理解可以是从「低级」的语法理解(检测视频中的段边界等)、到「高级」的语义理解(检测视频的种类等)各种各样的。低级的理解通过分析彩色、运动、结构、形状等低级的特征而生成内容描述来进行。其次,可采用该内容描述来索引视频。视频归纳视频归纳作成传送视频语义的视频紧凑的表示。在紧凑的表示中可包含「关键帧」、「关键段」、或关键帧与关键段的组合。作为一例,网球比赛的视频归纳可包含两帧,即取入了双方选手的第1帧、及取入了拿着奖品的获胜者的第2帧。在更详细且更长的归纳中,还可包含取入了比赛中为得胜所需的最后一分的全部帧。确实能够以手动来生成这样的归纳,但对此要花时间及费用。因而,希望自动。自动视频归纳方法是周知的。希望参照S.Pfeifer等着「自动地概括数字电影」(可视通信图像显示杂志,Vol.7,no.4,pp345~353,1996年12月)及Hanjal;c等著「一种基于无人管理组的用于自动视频概括的综合方案-有效性分析」(IEEE有关视频技术的电路及系统议事录Vol.9,No.8,1999年12月)。现有的视频归纳方法几乎专门集中于以彩色为基础的归纳。Pfeiffer等人在视频归纳的作成中,把运动与其它特征组合起来使用。但是,Pfeiffer等人的方法只不过是简单地采用了忽略了的能够考虑组合起来的特征间的相关性之加权组合而已。有时,也通过归纳方法,采用运动特征来抽出关键帧。如附图说明图1所示,现有技术的视频归纳方法几乎都强调基于彩色特征的分组。这是因为在压缩区域内容易抽出彩色特征,且具有抗噪声性。典型的方法是,以视频序列A101作为输入,应用以彩色为基础的归纳处理100,作成视频归纳S(A)102。视频归纳包含整个序列的归纳、或者序列中感兴趣的段即关键帧的集之中的某一种。方法100通常包含以下步骤。第1,按照彩色特征把视频帧分组。第2,把组作成容易访问的分层数据结构。第3,从各组抽出关键帧或关键序列,生成归纳。运动活性描述符视频还可以直观地作为具有各种级的活性、即作用强度来理解。较高级的活性之例,是在运动视频中的得分机会。另一方面,新闻视频具有较低级的活性。最近提出的MPEG-7图像规格提供与视频中的运动活性有关联的描述符。作为运动活性的一个尺度,有运动矢量之大小的平均及分散。希望参照Peker等著「运动活性强度的自动测量」(SPIE有关媒体数据库的存储及检索会议论文集,2001年1月)。然而,根据用途可有很多种变形。关键帧的集的逼真度找出单一的关键帧的最简单方法是从序列中选择任意的帧,但在视频的内容具有比用单一帧能够传送的多的信息的情况下,以单一关键帧为基础的方法便不起作用了。可以把视频段的第1帧指配为第1关键帧,其次,在特征空间中把距第1帧最远的帧指配为第2关键帧。希望参照M.M.Yeung及B.Liu著「视频镜头的有效匹配及分组」(IEEEICIP论文集,华盛顿D.C.,1995年)。H.S.Chang、S.Sull及S.U.Lee著「用于基于内容检索的有效视频索引方案」(IEEE有关视频技术的电路及系统议事录,Vol.9,No.8,1999年)记述了其它多数关键帧生成技巧及基于关键帧集的逼真度尺度的关键帧生成技巧。把逼真度尺度作为在视频序列中的关键帧集S与帧集R之间的半豪斯道夫(Semi-Hausdorff)距离(dhs)来定义。半豪斯道夫距离的实际定义如下。假定集Si在i=1,...,m的情况下包含m个帧,帧集Ri在i=1,...,n的情况下包含n个帧。假定2个帧Si及Ri间的距离为d(Si,Ri)。把各帧Ri的di如下定义。如果di=min(d(Sk,Ri)),K=0..m,则S与R之间的半豪斯道夫距离由下式给出,dsh=S,R)=ma×(di),i=1..n 换言之,首先,对于全部的i,测定在帧Ri与在帧集S中将其表示得最好的帧之间的距离di。其次,求出按照上述计算出来的距离di的最大值。该距离表示,关键帧集S何等良好地表示R。表示得越良好,S与R之间的半豪斯道夫距离就越小。例如,在明显的情况下,在集S及R相同时,半豪斯道夫距离为零。另一方面,如果距离大则表明,R帧中至少有1帧由关键帧集S的任一帧都不能良好地将其表示出来。几乎现有不同点的尺度都满足在上述定义中采用的距离空间中的距离方面所需要的特性。也可以采用M.J.Swain及D.H.Ballard著「彩色索引」(计算机图像杂志,Vol.7,no.1,pp.11~32,1991年)记述的、如下定义的彩色直方图交叉距离。在M×N尺寸的2个图像fi及fj的k箱彩色直方图为Hi及Hj的情况下,该2个图像间的不同点由下式给出。d(fi,fj)=1-1MxNΣk=1Kmin{Hi(k),Hj(k)}]]>希望注意,不同点在范围内。本专利技术的目的是提供单独使用运动特征、特别是运动活性特征,或将其与彩色及结构的特征等其它低级的特征组合起来使用,进行自动视频归纳的方法。本专利技术以下述的考虑为基础。视频的运动活性是表示视频归纳的相对难度的很好的标准。运动量越大,该视频的归纳就越困难。视频归本文档来自技高网...

【技术保护点】
一种归纳压缩视频的方法,其特征在于包含:测定上述压缩视频中的累积运动活性强度;按照上述累积运动活性强度,从上述压缩视频中选择关键帧;以及以时间顺序把上述关键帧连结起来,形成上述压缩视频的归纳。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:A迪瓦卡兰R拉德哈里什南KA佩克
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1