用于自动生成多个图像的概要的方法和设备技术

技术编号:2916870 阅读:190 留言:0更新日期:2012-04-11 18:40
用于提供多个图像(例如视频序列)的概要的方法和设备。该方法包括把视频序列划分成多个分段。相对于内容而分析这些分段,并把一组内容描述符关联到这些分段。优选地,有关分段、剧本等等的附加文本信息被使用来确定内容描述符。代表分段之间关系的图形被构建来表示在分段之间的关系。权重被关联到这些关系,以便代表在分段之间的关系(例如逻辑相关性)的测度。权重是基于所计算的内容描述符。对于分段的关联性测度是根据与所述分段的关系相关联的所有权重被确定的。最后,通过选择最相关的分段而生成概要。所述方法可以创建影片的自动的概要,它保留原始影片的所有逻辑情节,但在持续时间上更短(例如,是原始影片的70%),而同时保持原始回放速率。

【技术实现步骤摘要】
【国外来华专利技术】用于自动生成多个图像的概要的方法和设备本专利技术涉及提取多个图像(例如视频序列)的内容概要的领域。更具体 地,本专利技术提供一种用于自动生成多个图像的概要、其中保留故事主线或 逻辑情节的方法和设备。摘要已成为在浏览和搜索家庭视频集及已产生的视频档案或照片档 案中的一种非常必要的工具,它节省了用户的时间、并提供了极好的控制和概观。在文献中已提供了各种类型的摘要方法可视的内容表、快速浏 览和多媒体概要。另外,已经研究了各种领域,诸如用于新闻、音乐视频 和体育的经组织的视频摘要。用户想要在理解逻辑情节的同时在比原始持续时间更短的时间内观 看电影,即要求保留电影的总体故事主线。已提出了用于快进和音频压缩 的算法,其允许使观看步速加速多达1. 5~2倍。 一种可能性是去提高回放 速度,然而,快速回放需要来自观众的非常高的注意程度,并可以变成可 笑的和不能理解的。因此,仍旧有一个目标是叙事性(narrative)视频摘要,这包括用 于概括诸如电影、文献片和家庭视频那样的视频序列的叙事性内容的方 法。对于诸如影片那样的叙事性多媒体内容的概括是一个活跃的研究课 题,然而,通常的目的是创建预览,它们并不传达有关原始影片的故事的 所有信息。WO 03/090444公开了用于从视频帧的序列中定义了把两个视频帧互相联系的距离函数,例如,在帧的 RGB直方图之间的距离。最佳化准则被定义来表达从视频帧序列中选择的 多个视频帧子序列的特征。然后,通过最佳化在所有子序列上定义的最佳 化准则函数(例如能量函数)的值而确定视频帧子序列。在W0 03/090444 中,把帧互相联系的距离函数是基于帧之间的视觉的距离。因此,被选择 的帧子序列将是一组关键帧,就可视内容而论它们是最不同的帧,因此在 某种意义上是视频序列的代表。然而,由于两个帧仅仅是通过视觉距离而 相互联系的,所以被选择的子序列不一定代表反映视频序列的故事主线和 真正意义的概要。因此, 一个目的是提供一种摘要方法和系统,其能够提供反映多个图 像(例如视频序列)的逻辑情节、并仍旧具有与原始视频序列相同的回放速 率的概要序列。在本专利技术的第一方面,这个目的和几个其它的目的是通过提供一种用于提供多个图像的概要的方法而达到的,该方法包括a) 4巴该多个图像划分成多个分段(segmentation),每个分段包括 至少一个图像,b) 相对于内容来分析每个分段,并关联从所述分段的分析中得出的 一组内容描述符,c) 根据内容描述符建立在分段之间的关系,其中在第一和第二分段 之间的每个关系具有与其关联的一个或多个权重,所述一个或多个权重代 表在第一和第二分段之间的关系(relation)的测度,d) 根据与所述分段的关系相关联的权重为每个分段确定关联性 (relevance)的观寸度,e) 通过根据与分段相关联的关联性参数从该多个分段中选择分段子 组而生成概要。所谓'多个图像,被理解为一组图像,诸如照片的档案或图像帧的视 频序列。所谓'关系的测度,要被理解为代表在两个分段之间的关系度的 测度。例如,'关系的测度,可以是代表在分段之间的逻辑相关性 (correlation)的测度,或者它可以仅仅是分段相对于特定的内容描述 符是如何相似的测度。本专利技术对于自动生成影片或家庭视频等的概要是特别地、但不排它地 有利的。在优选实施例中,有可能自动生成将包括原始输入视频序列的精 华的概要,并且由于该概要是由从原始视频序列中选择的分段或场景生成 的,所以该概要将具有自然的回放速率,即,不引入强制的、不自然的高 速度。该方法也可以被使用来生成照片的档案-例如假期照片的档案等等 的概要,其中希望具有代表照片内容的概要。在照片的情形下,分段可以 是单张照片,或是一组照片。在例如已被划分成分段的视频序列的情形下,例如对于视频序列的每 一个场景一章(chapter),应当理解,步骤a)可以省略。否则,步骤a) 可包括时间的分段,例如,基于使用本领域已知的帧差值检测方法对于分 段边界的检测。在步骤C),通过使用非常有限量的数据来建立多个图像的非常简洁的代表。例如,1. 5小时的电影可以通过使用5-10个内容描述符和典型地划 分成700-1000个分段而^^皮代表?优选地,步骤e)包括选择具有最高的关联性测度值的分段。换句话说, 相对于该多个图像的剩余分段具有最小关系度的 一个或多个分段首先被 省略,因此将其从概要中排除出去。由此,有效地保证该概要将是基于具 有该多个图像的最大可能的语义内容的分段,因此该概要将在最好的可能 的程度上反映该多个图像的核心意义。由于权重表明两个分段相关到什么程度(高权重值反映高的关系度; 权重例如可以被确定为在两个分段的参数组之间的相关性因子,这些组包 括至少一个参数),所以关联性测度优选地按照与特定分段的关系相关联 的所有权重的和值进行计算。关联性测度尤其是可以等于与特定分段的关 系相关联的所有权重的和值。在优选实施例中,在分段的内容分析中一例如在步骤b)中、以及优选 地还在建立所述分段与其它分段之间的关系中,考虑与所述分段相关联的 附加文本信息。文本信息可以嵌入到视频内容-例如对白字幕中,或与视 频序列一起被存储在同一个物理或逻辑载体中,例如,在DVD盘上的对白 字幕中或连同电视广播一起发送的隐蔽字幕(closed caption)中。因此,这样的附加文本信息可被使用来支持内容分析,否则内容分析 可以仅仅基于被应用到多个图像本身的自动算法。在附加文本信息被嵌入 到多个图像本身中例如作为对白字幕的情形下,优选的额外步骤包括如下 步骤从多个分段中提取这样的附加文本信息,以便能够考虑它来进行进 一步的分析。在附加文本信息要从被嵌入到与该多个图像有关的音频部分 中的叙事性语音提取的情形下,附加文本信息的提取可包括语音识别。优选地,可以把附加文本信息的相关部分包括到概要内。这可以作为 概要的视频部分中的对白字幕、和/或通过使用语音合成方法把附加文本 信息转换成语音而完成。多个图像可以仅仅是图像或图像帧,或另外有与该多个图像相关联的 音频部分,例如影片的声轨。附加文本信息可包括描述影片的场景的简短 文本,例如带有包括谁、在哪里和在什么时候的信息。通常,附加文本信 息例如可包括对白字幕(例如,人工地输入和由人同步)、影片脚本(例 如,由人书写并自动与视频序列校准)、语音笔录本(transcript )(例如, 由人书写或通过自动语音识别而生成)。附加文本信息可以作为单独的服务被提供,用于提供与视频序列同步的人工注解,目的是便于个人化的读 者摘要,例如有关'谁在该场景中,、'什么在该场景中,、'该场景在 什么地方,、'为什么发生或显示某些事情,等等的元数据。在该多个图像包括视频部分和音频部分的情形下,优选地包括考虑到 视频部分和音频部分两者的内容描述符。例如,图片和话音信号都可以被影片角色的信息。优选地,关系包括至少一个基于音频部分的关系和至;' --个基于视频部分的关系。由此.提供了关于该多个图像的可得到的数 据——即,视频与音频数据——的最好的可能的利用。优选地,所述关系包括至少一个基于以下一项或多项的关系1) 在第一和第二分段之间的时间中的距离,2) 关键字在与相应的第 一和第二分段相关联的文本文档来自技高网...

【技术保护点】
一种用于提供多个图像(1)的概要的方法,该方法包括: a)把该多个图像(1)划分成多个分段(s1、s2、s3、s4),每个分段(s1、s2、s3、s4)包括至少一个图像, b)相对于内容来分析每个分段(s1、s2、s3、s4),并关联从所述分段(s1、s2、s3、s4)的分析中得出的一组内容描述符, c)根据内容描述符在分段(s1、s2、s3、s4)之间建立关系,其中在第一和第二分段(s1、s2)之间的每个关系具有与其关联的一个或多个权重(w12),所述一个或多个权重(w12)代表在第一和第二分段(s1、s2)之间的关系的测度, d)根据与所述分段(s1)的关系相关联的权重(w12、w13、w14)为每个分段(s1)确定关联性的测度, e)通过根据与分段(s1、s2、s3、s4)相关联的关联性参数从该多个分段(s1、s2、s3、s4)中选择分段子组(s2、s4)而生成概要(130)。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M巴比里L阿格尼霍特里N迪米特罗瓦
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1