概念模型空间中的内容表示和检索的方法和设备技术

技术编号:2920769 阅读:234 留言:0更新日期:2012-04-11 18:40
一种产生用于表示多媒体文档的至少一个模型向量的方法,包括下述步骤:对多媒体文档应用多个概念检测器;相对于每个检测器,对所述多媒体文档评分;和把所述得分映射到多维空间中,从而产生至少一个向量表示。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及使用模型向量来索引多媒体文档,更具体地说,涉及产生模型向量表示,使模型向量与多媒体文档相联系从而提供索引,并使用模型向量搜索、分类和群集多媒体文档的方法和设备。本专利技术还涉及把模型向量用于信息发现,使多媒体内容个人化,和查询多媒体信息储存库。
技术介绍
随着视频、图像、文本和其它多媒体文档形式的数字信息的数量不断增长,越来越需要索引、搜索、分类和组织所述信息的更有效方法。内容分析、特征抽取和分类方面的最新进展正在提高有效地搜索和过滤多媒体文档的能力。但是,在能够从多媒体内容中自动抽取的低级特征描述,例如颜色、纹理、形状、动作等,和对多媒体系统的用户有用的语义描述,例如对象、事件、场景和人物之间仍然存在显著的差距。多媒体索引的问题可由需要手工、半自动或者全自动处理的许多方法解决。一种方法使用允许人们手工把标记、类别或描述赋予多媒体文档的注释或编目工具。例如,M.Naphade,C.-Y.Lin,J.R.Smith,B.Tseng和S.Basu在论文“Learning to Annotate Video Databases”,IS&T/SPIESymposium on Electronic ImagingScience and Technology-Storage&Retrieval for Image and Video Databases X,San Jose,CA,Jan.2002中描述一种允许把标记分配给视频镜头的视频注释工具。他们还公开一种基于主动学习分配标记的半自动方法。全自动方法也是可能的。例如,M.Naphade,S.Basu和J.R.Smith在“A Statistical Modeling Approach toContent-based Video Retrieval”,IEEE International Conference onAcoustics,Speech and Signal Processing(ICASSP-2002),May,2002中公开根据低级可视特征的统计建模,自动向视频内容分配标记的方法。自动标记技术可用于允许根据自动分配的标记搜索视频,但是,索引局限于匹配少量词汇的值,从而如果用户输入和标记项之一不相符的搜索项,那么搜索不会找到任何目标多媒体文档。在自动化系统正在提高向多媒体文档赋予标记、类别和描述的能力的条件下,需要促进这些描述,以提供更有意义的利用所述描述索引、搜索、分类和群集这些文档的方式。此外,系统应考虑到自动化系统的不确定性或可靠性,以及赋予多媒体文档的任意标记、类别或描述的关联性,以便提供有效的索引。于是,本专利技术的一个目的是提供一种利用捕捉任何自动标记的结果及其对应的得分,例如置信度、可靠性和关联性的模型向量表示法,索引多媒体文档的方法和设备。本专利技术的另一目的是在信息发现,多媒体内容个人化和多媒体信息储存库的查询的应用中使用模型向量表示法。
技术实现思路
本专利技术实现了上述及其它目的,本专利技术提供一种利用模型向量表示法索引多媒体文档的设备和方法,所述模型向量表示法把多媒体文档的分类或标记结果以及任何对应的不确定性,可靠性或关联性得分封装到多维向量中,所述多维向量可被用于多媒体文档的搜索、分类和群集。模型向量表示法涉及词汇实体到多维向量空间中的各维的映射,多维向量空间允许文档在多维空间中被表现和索引。模型向量表示法的优点在于它在整个词典内广泛地捕捉标记。它还提供捕捉标记或分类结果的不确定性的紧凑表现。模型向量表示法还具有索引方面的优点,因为其实值多维本质便于度量空间中的有效索引,允许模型向量表示法的距离或相似性的直接计算。这为有效方法使用模型向量进行多媒体文档的相似性搜索,基于关联性反馈的搜索,分类,群集,过滤等创造了条件。附图说明下面将参考附图,更详细地说明本专利技术,其中图1表示其中查询处理器把模型向量索引用于搜索的多媒体信息检索系统;图2表示在给定词典和一组受过训练的检测器的情况下,多媒体文档的模型向量的产生;图3表示产生多媒体文档的模型向量的检测、评分和映射过程;图4表示根据检测器评分而产生的模型向量的例子;图5表示利用模型向量索引多媒体文档的过程;图6表示使用模型向量的查询过程;图7表示使用模型向量的多媒体文档的修改。具体实施例方式图1描述了具有本专利技术的特征的多媒体信息检索系统的一个例子。如图所示,用户通过用户界面(100)在步骤(105)中向多媒体信息检索系统发出查询。查询由查询处理器(101)处理。查询处理器在步骤(106)中搜索保存的一组索引值(104),找出与用户查询的匹配物。就呈模型向量形式的索引值来说,索引值对应于与每个被索引多媒体文档的语义维相关的多维向量。匹配物在步骤(107)中被传送给检索引擎,在步骤(108)中,从多媒体储存库(103)取回匹配的多媒体文档。根据模型向量与储存库的特定多媒体文档的联系(110),确定对应的多媒体文档。多媒体文档随后在步骤(109)中被返回给用户,并显示在用户界面(100)上。模型向量表示法提供一种表现可被用于找出用户查询的匹配物的一组保存的索引值(103)的方式。模型向量表示法封装对多媒体文档应用一系列的检测器或分类器的结果。例如,考虑通过检测在多媒体文档中是否描述了这些概念,从下述词典(lexicon){“car”,“boat”,“train”}分配词汇实体的一组分类器。检测问题可被看作通过赋予反映每个概念存在的确定性的得分,检测每个概念的存在与否的一组二进制分类器。例如,系统可对“car”给出0.75的得分,它可被理解为赋予“car”标记的置信度为75%的含义。另一方面,对于“train”,系统可给出0.25的得分,它可被理解为赋予“train”标记的置信度为25%的含义。总的说来,系统产生这些多个检测器的得分,模型向量把这些得分记录在单一表示中,所述单一表示随后可被用作多媒体文档的索引。图2描述了产生多媒体文档或查询的模型向量的过程。首先利用多个检测器(201)处理多媒体文档(200),并关于成为每个检测器的基础的概念对多媒体文档(200)评分。检测器本身可对应于固定词典(204)或者固定的一组类别、对象、事件、场景或人物。例如,分类辞典图形材料词库(TGM)提供一组用于对照片和其它类型的图形文档分类的类别。检测器可被建立和使用,使得每个检测器对应于TGM类别之一。词典(204)的概念也可是类属的,特定的或者抽象的。例如,概念可对应于类属实体,例如“显示桥梁的场景”。另一方面,概念可对应于特定实体,例如“显示金门大桥的场景”。最后,概念可对应于抽象实体,例如“现代文明”。检测器(201)中对应于受过训练的模型或者其它类型的统计分类器。就训练(205)来说,被标记的多媒体文档的例子可在学习过程中被用于定义检测器(201)模型和它们的参数。检测器(201)的输出随后在映射过程(202)中被变换,从而产生模型向量(203)。模型向量提供关于词典(204)的概念的多媒体文档(200)的一种累积评分。此外,模型向量(203)允许通过考虑其相对于词典的评分,推理(reason)多媒体文档(200)。图3描述了产生多媒体文档的模型向量的一种实现,其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:约翰·史密斯米林德·纳法德阿波斯塔尔·纳特塞夫
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1