生成与内容项的集合相关联的元数据制造技术

技术编号:5415436 阅读:262 留言:0更新日期:2012-04-11 18:40
一种自动生成与内容项的集合相关联的元数据的方法,该元数据对被用于处理内容项中所包含的数据的系统(1)访问,该方法包括:获得与内容项单独地相关联的各个元数据组,每个元数据组包括与内容项相关联的至少一个属性值。分析属性值在与各个内容项相关联的元数据的组上的至少一个分布。根据该分析选择至少一个属性值。所选的属性值被处理以生成与所述集合相关联的元数据,并且使所生成的元数据在识别内容项的集合方面可被用于处理内容项中所包含的数据的系统(1)利用。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种自动生成与内容项的集合相关联的元数据的方法,该元数据对用于处理内容项中所包含的数据的系统来说是可访问的。本专利技术还涉及一种用于自动生成与内容项的集合相关联的元数据的系统。本专利技术还涉及一种计算机程序。
技术介绍
US2006/0020597涉及利用可视图像内容评估来实现与可视图像的各种交互,比如,可视图像集合的索引、可视图像集合的可视图像的分组、可视图像集合的概要、可视图像分组的注解、搜索可视图像以及对来自可视图像分组的代表性可视图像进行识别。可以通过如下方式来注解可视图像集合中的可视图像分组:识别每个分组的图像表示、确定每个图像表示与每个其他图像表示的相似性、以及基于每个图像表示与其他图像表示的相似性来注解可视图像分组。可视图像分组的图像表示可以是该可视图像分组中所有可视图像的一个或多个图像特性的平均值。已知方法的问题在于,图像特性的平均值通常是没有意义的。特别是对于大的图像分组,图像特性的平均值将趋向成为所述特性的可能值的范围的中值。这使得所述注解不太适合用于浏览和搜索分层组织的可视图像。
技术实现思路
本专利技术的目的是提供一种上面开头段落中所提及类型的方法、系统和计算机程序,其适合用于在人为干预最小或根本没有人为干预的情况下,生成内容项的集合的高效表示,以便通过用于处理所述内容项的系统对这种集合进行迅速定位。该目的是通过根据本专利技术的方法实现的,该方法包括:获得与内容项单独地相关联的各个元数据组,每组元数据包括与该内容项相关联的至少一个属性值,分析属性值在与各个内容项相关联的各组元数据上的至少一个分布,根据所述分析选择至少一个属性值,处理所选的属性值以生成与所述集合相关联的元数据,并且使所生成的元数据在对内容项集合的识别方面可被用于处理内容项中所包含数据的系统利用。在本专利技术的上下文中,元数据的意思是描述信息承载(bearing)实体的特性的结构化编码数据。通过处理所选的属性值来生成与所述集合相关联的元数据,与例如选择代表性的内容项或所有内容项的元数据的详尽列表相比,获得了更高效的表示。通过选择属性值,而不是使用所有属性值,使得所生成的元数据相对地富于表现力。通过基于对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析来选择所述属性值,使得选择与所述-->集合有关的属性值成为可能。而且,分析值的分布和选择一个或多个属性值的步骤适于自动执行,使得原则上用户干预不是必需的。通过使所生成的元数据可被用于处理内容项中所包含数据的系统用在对内容项集合的识别方面,使得系统的用户可以能够通过首先定位内容项的集合、随后可选地定位集合中的各个内容项,来更高效且更准确地定位相关内容项。一个实施例包括使用由分层文件系统维持的数据来识别所述集合中所包含的内容项。所获得的效果是,一种自动化系统能够执行下述方法:在即将生成元数据时,在没有人为干预的情况下相对容易地识别所述集合的成员。也就是说,人们不需要提供用于定义所述集合的输入数据。一种分层文件系统提供了将内容项组织成目录和子目录(或类似物,比如嵌套的文件夹),每个目录和子目录表示一个集合。在一个实施例中,根据所述分析选择至少一个属性值包括:选择少于所有属性的至少一个值,其中所述所有属性具有在与所述集合中的内容项单独相关联的元数据组中所包含的值。一种效果是,仅仅使用相关属性生成所述集合的简明描述。那些不适于表征所述集合、或一般不适于表征所考虑类型的内容项集合的属性的值不被使用。一个实施例包括选择多个属性中每个属性的至少一个值,数量基于下列之一:用户输入,和对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析结果。一种效果是,可以适配与内容项的集合相关联的元数据的容量以使其或多或少地富于表现力并且/或者表示内容项的完整集合。在一个实施例中,选择至少一个属性值的步骤包括:通过比较分析多个属性中每个属性的值在单独与各个内容项相关联的元数据组上的分布来选择至少一个属性。一种效果是,可以选择集合中有区别的一个或多个属性值,而该属性值涉及所述集合中尽可能多的内容项。在一个实施例中,针对多个候选属性的每个属性,所述比较分析包括:根据与各个内容项单独相关联的候选属性的值的相似性,将内容项的集合分割成不相交组,并且相对于所述集合的大小,根据至少基于所述候选属性的分割中最大组的相对大小的因素来对所述属性进行分级。一种效果是,较大的权重被给予适用于所述集合中的许多内容项的属性值。据观察,术语“相似性”不一定表示值完全相同。它表示值按照某种度量的相似性匹配。在一个实施例中,针对多个候选属性中的每个属性,所述比较分析包括:根据与各个内容项单独相关联的候选属性的值的相似性,将内容项的集合分割成不相交组,并且根据至少基于对于所述属性获得多少组的因素来对候选属性进行分级。所获得的效果是,可以清除在所述集合中的内容项上具有广泛散布的值的属性。在一个实施例中,根据对最大组的相对大小的变化比对组的数量的变化更敏感的因素来对候选属性进行分级。-->一种效果是,避免了当主值之外的各值相对罕见地出现时、在所述集合上展示出大范围值的属性被清除。在一个实施例中,所述比较分析包括:根据至少部分基于分配给候选属性的优先权值的因素来对候选属性进行分级。所获得的效果是,优先地选择了本质上通常更适合于生成描述内容项集合的元数据的属性值。在一种变型中,通过至少部分地使用所述集合外的内容项来执行对候选属性的值在与各个内容项单独相关联的元数据上的分布的分析,来获得优先权值。一种效果是,哪些属性是最适合用于生成描述内容项集合的元数据的知识不需要被导入。不必知道例如,表演艺术家是用于在集合之间进行辨识的最佳属性。另一种效果是,提供了一种可能,以便根据属性值在其他集合中内容项上的分布来修正属性值的选择,所述其他集合对用于处理内容项中所包含的数据的同一系统是可访问的。这使得所生成的元数据更适合用于搜索和浏览。作为示例,通过分析该同一系统可访问的其他集合,可以确定该系统的用户已经根据风格将他的音频文件的集合的全体分类为多个集合,例如包含爵士乐轨道(track)的目录、包含流行音乐轨道的目录等等。通过优先考虑风格,目录将更加可能与指示该目录中流行的音乐风格的元数据相关联,甚至其中一个目录内的所有音频文件通过同一表演艺术家也可以与元数据关联。一个实施例包括选择所选属性的多个值用于处理以生成与所述集合相关联的元数据,其中数量基于下列至少一个:用户输入,和所述属性的值在与各个内容项单独相关联的元数据组上分布的特性。一种效果是,可以选择更多的值,其中一个属性值不涉及所述集合中内容项的大多数。在一个实施例中,处理所选属性值以生成元数据的步骤包括:生成包含对应于至少一个所选属性值的属性值信息的元数据,并且基于对所选属性的值在与各个内容项单独相关联的元数据组上的分布的分析来限定数据。一种效果是,基于所选的属性值,生成了元数据,而且元数据还指示所选的值与所述集合的整体如何相关。在一个实施例中,处理所选属性值以生成元数据的步骤包括合成表示描述性短语的文本数据。一种效果是,提供适合用在用户接口中以便搜索、浏览和/或管理内容项集合的数据。一个实施例包括:在根据所述分析选择至少一个属性值后,在与所述集合中各个内容项相关联的元数据组上本文档来自技高网...
生成与内容项的集合相关联的元数据

【技术保护点】
自动生成与内容项的集合相关联的元数据的方法,所述元数据可被用于处理内容项中所包含数据的系统(1)访问,所述方法包括:获得与内容项单独相关联的元数据组,每个元数据组包括与内容项相关联的至少一个属性值,分析属性值在与各个内容项相关联的各元数据组上的至少一个分布,根据所述分析选择至少一个属性值,处理所选的属性值以生成与所述集合相关联的元数据,并且使所生成的元数据在识别所述内容项的集合方面可被处理内容项中所包含的数据的系统(1)来利用。

【技术特征摘要】
【国外来华专利技术】EP 2007-10-8 07118031.91.自动生成与内容项的集合相关联的元数据的方法,所述元数据可被用于处理内容项中所包含数据的系统(1)访问,所述方法包括:获得与内容项单独相关联的元数据组,每个元数据组包括与内容项相关联的至少一个属性值,分析属性值在与各个内容项相关联的各元数据组上的至少一个分布,根据所述分析选择至少一个属性值,处理所选的属性值以生成与所述集合相关联的元数据,并且使所生成的元数据在识别所述内容项的集合方面可被处理内容项中所包含的数据的系统(1)来利用。2.根据权利要求1的方法,包括使用由分层文件系统维持的数据来识别所述集合中包含的内容项。3.根据权利要求1或2的方法,其中根据所述分析选择至少一个属性值包括:选择少于所有属性的至少一个值,所述所有属性具有在与所述集合中的内容项单独地相关联的元数据组中包含的值。4.根据权利要求3的方法,包括选择多个属性中每个属性的至少一个值,该数量基于下列之一:用户输入,和对属性值在与各个内容项相关联的元数据组上的至少一个分布的分析的结果。5.根据权利要求1-4中任一项的方法,其中选择至少一个属性值的步骤包括:通过比较分析多个属性中每个属性的值在与各个内容项单独相关联的元数据组上的分布来选择至少一个属性。6.根据权利要求5的方法,其中针对多个候选属性的每一个,所述比较分析包括:根据与各个内容项单独地相关联该候选属性的各值的相似性将内容项的集合分割成不相交组,并且相对于所述集合的大小,根据至少基于针对所述候选属性进行的分割中最大组的相对大小的因素,对所述属性进行分级。7.根据权利要求5或6的方法,其中所述比较分析包括:根据至少部分基于分配给候选属性的优先权值的因素,对候选属性进行分级。8.根据权利要求5-7中任一项的方法,包括选择所选属性的多个值用于处理以生成与所述集合相关联的元数据,其中该数量基于下列至少一个:用户输入,和...

【专利技术属性】
技术研发人员:M巴比里J韦达
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1