视频数据的非线性表征制造技术

技术编号:5496058 阅读:250 留言:0更新日期:2012-04-11 18:40
以非线性范式表征视频数据的方法。视频数据被分类为语义内容,所述语义内容包括多层结构且每一层表示语义参考(例如不同的影片实体)。以分层结构组织所述语义内容,其中顶层表示综合信息,而最低层表征基本信息。在所述顶层中的所述影片实体被超链接到在第二层中的实体。在所述第二层中的所述实体被超链接到第三层并以此类推。在最低层中的每一影片实体被指派到所述视频内容的一部分并且被超链接到对应的视频数据。所述语义内容包括在多对多关系中被超链接的视频数据。多对多关系意味着所述数据为超链接的视频数据并且所述视频数据支持多路访问和多路显示。用于向使用者表征分类的语义内容的装置,其中所述视频数据可以无需编码转换被线性地逐段可视化并播放。所述语义内容的所述分层结构还可以在逻辑上被可视化为关系图和关键帧的显示。使用者可以从所述顶层开始向下到所述最低层浏览所述语义内容。与所述语义内容的每一影片实体相对应的所述视频可以被单独地作为短视频来播放。以及用于在视频数据的分类的语义内容的贮藏库上执行搜索的装置。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术总地涉及以非线性方式表征视频数据的方法。
技术介绍
目前,视频的观看与表征均是以线性方式实现的。基于帧的方式对视频进行表 征,并且以递增的顺序一帧一帧地观看视频。视频分类和搜索均是以时间上为线性的形 式处理的。也就是说,视频片段以线性时基式的方式被分割。在视频搜索期间,系统可 以指向特定的帧。大部分视频特征(例如,快进和快退)为基于线性的操作。当前,网站(例如YouTube)允许对视频数据标记关键字。使用者可以通过敲入 关键字并且与网站上的视频所标记的关键字匹配来搜索视频。这种技术使得能够通过实 例进行查询。然而,如果使用者无法想到准确的关键字来匹配时,这样搜索视频是非常 困难的。存在这样的现有技术,允许基于低级的视觉特征(例如,颜色、纹理以及运动) 的视频索引。选择关键帧(key-frame)和场景(scene)来以压缩方式概略地表征视频。 然而,关键帧和场景是仅可以通过眼球来观看的,并且因此是不能扩展到针对视频数据 库来搜索的。另一现有技术针对包含模型帧(例如,车、花、狗等)的帧库来匹配关键 帧。匹配结果将用来索引视频内容。然而,这就回到了与线性索引相同的限制,即其中 视频数据仅可以支持关键字搜索。现阶段的技术具有有限的能力且不能使用视频数据的 所有潜力。
技术实现思路
本专利技术提供基于非线性的视频表征以及用于视频数据表征的方法。这样的表征 为用于非线性视频观看和搜索的系统提供能力。视频数据被显示为多层结构,其中每一层表示不同的影片实体(cinematic entity)。在所述结构的顶层一般为抽象(abstract)信息,其中在基本层表示具体信息。视 频数据被分类到语义视频数据中,语义视频数据在多对多关系中是被超链接的。视频数 据成为超视频(hyper-video),并且所述视频数据支持多路访问和多路显示。本专利技术包括用于向使用者显示分类的视频数据的装置。语义数据可以被描述为 纯文本格式。使用者可以从顶层开始向下到最低层来浏览语义数据。语义数据的分层结 构被显示为关系图。使用者可以观看可以作为短视频单独播放的对应于每一语义数据的 视频的每一部分。本专利技术还包括用于在语义视频数据的贮藏库上执行搜索的装置。使用者可以指 定要在分类的视频数据的语义内容中进行搜索的关键字。可以在语义内容上执行本体搜 索(ontology search),其中所述搜索操作基于分层的关系而不仅仅是关键字。采用泛型排 列和群集算法来将内容分组并使内容相互关联。视频可以根据其内容、语义含义、事件等被分类。因此,使用者可以选择观看和搜索来自视频的任何特定的内容。语义含义关系和本体论 从最低的对象层到最高的场景层,向每一视频数据实例给出语义含义。本发 明为了组织语义描述采用本体论方法。本体论是采用最先进技术的知识管理方法论, 并且常用来描述概念之间的关系。在许多技术网站中(例如,http://www.w3.org/TR/ webont-req/)对本体论的定义和实施进行了描述。例如,帧包含对象富士山,该对象属 于地理山脉和国家日本的组。在下一层中,日本属于亚洲。附图说明附图被引入并作为本公开的一部分,图示说明本专利技术的各种实施方案和各方 面。在附图中图1图示说明视频数据多层结构;图2示出视频显示的线性视图;图3示出示例逻辑视图;图4示出对传统媒体数据进行分类的过程;图5示出用于显示分类的语义数据的装置的优选的实施方案;以及图6示出在媒体搜索中的数据流。具体实施例方式如下的具体说明涉及附图。尽可能地在附图和如下的说明中使用相同的参考标 号来表示相同或相似的部分。尽管本文描述本专利技术的数个示例性实施方案和特征,修 改、变通和其他实施方式均为可能的,而不背离本专利技术的精神和范围。例如,可以对附 图中图示说明的部件进行替换、增加或修改,而本文所描述的示例性方法可以通过对已 公开的方法进行替换、重排序或增加步骤来修改。因此,如下的具体说明并不限制本发 明。相反,本专利技术适合的范围由所附的权利要求书限定。本专利技术提供用于以语义和非线性的分层结构表征视频数据和显示视频数据模型 的方法。本专利技术以基于内容的结构表征视频数据单元,而不是仅仅将视频表征为帧实体 的序列。具体地,视频数据被显示为多层结构,其中每一层表示不同的影片实体。在所 述结构的顶层一般为抽象信息,其中在基本层表示具体信息。可以根据视频的内容、语义含义、事件等对视频进行分类。这样的分类通过创 建特定的标签来实现,该特定的标签具有被分配到至少一种语义参考(semanticreference) 的字段。所述语义参考包括关于记录的信息,所述记录具有带有至少一种语义参考的字 段。因此,使用者可以选择观看和搜索来自视频的任何特定内容,这样的内容是载 有具有相同的语义参考的标签的视频文件数据。在优选的实施方案中,这样的内容按顺 序被排列并表征。例如,新闻剪辑可以被分组到各种类别中,例如角色(cast)、事件、 日期、场地、主题等。历史性的网球比赛可以被归类到比赛、发球、拦击、非受迫性失 误、运动员等中。影片可以被分组到角色、事件、场地等中。由于本体论对语义内容搜索的支持,针对不同使用者而言语义内容贮藏库 (repository)成为有价值的资源。例如,新闻视频可以更多地以电视台来组织,历史性体 育运动事件可以容易地通过人员方面信息(例如教练等)来进行检索。图1图示说明视频数据多层结构,并且出于图示说明的目的,该多层结构具有 这样的六层,即场景、情节(plot)、情景(play)、截段(shot)、截镜(take)、帧以及对象 (object)。最基本的层1为对象。该对象可以为富有意义的语义对象(例如人、车、建 筑物、海滨、天空等)或者为视觉上明显的区域(例如具有相同颜色、类似纹理等的区 域),该视觉上明显的区域为视觉对象。该对象还可以为交互式地分组的区域。语义对 象和视觉对象形成感知对象的概念。语义内容的分层结构可以在逻辑上被可视化为关系 图和关键帧的显示。下一层为帧2。对象为帧中的区域。帧是视频数据基本单元的传统的且物理的 表征。帧的序列形成视频,其中典型地,视频中的1秒包括25帧。帧在显示上为一个 完整的单元。一系列连续的帧形成视频序列。I-帧(I-frame)在一组帧中为识别帧,与 在MPEG压缩标准中的I-帧的定义一致。层3表示截段和截镜。截镜为包含感知对象的一个动作的帧序列。动作是由 如在帧序列中示出的对象所实现的连续运动,然而所述运动演绎(process)语义含义。例 如,情景可以为从一个人开始散步开始到这个人停止散步的帧的序列。它是描述动作的 最小序列。截段是给出特定感知对象的清晰描述的帧序列。例如,截段可以为从汽车出 现开始到汽车消失的帧序列。它是描述感知对象的最小单元。 截镜和截段均为抽象的影片实体。它们可以出现在相同的帧序列中,并且相互 之间不必具有任何物理关系。包含在同一场地执行许多动作的多个感知对象的视频形成情景4。场地为对视频 截镜(video shot)起到背景作用的视觉对象。同一场地可以在视频中出现多次。场地的 景象可以从不同的影片角度进行拍摄。来自同一场地的所有情景4的集合形成场景6,而在同一故事下生成的多个情景 形成情节5。请注意的是,层的定义允许截镜和截段,本文档来自技高网...

【技术保护点】
一种用于表征要被表征的视频文件数据的视频文件数据表征方法,所述要被表征的视频文件数据载有这样的标签,所述标签具有被分配到至少一种语义参考的字段,并且所述要被表征的视频文件数据被这样构造,从而载有具有指定的语义参考的标签的视频文件数据按顺序被排列并表征,该方法包括:  为视频文件数据创建包含语义参考的标签,所述语义参考包括关于记录的信息,所述记录具有带有至少一种所述要被搜索的视频文件数据上的语义参考的字段;  接收指令来搜索与所述要被搜索的视频文件数据上的指定的语义参考关联的标签;  从标签中检索关于记录的信息,所述记录具有所述要被搜索的视频文件数据上的指定的语义参考;  提取载有具有指定的语义参考的标签的所述视频文件数据;  按顺序表征提取出的载有具有所述指定的语义参考的标签的视频文件数据。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:金声欧思乐
申请(专利权)人:多基有限公司
类型:发明
国别省市:HK[中国|香港]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1