基于内容项关联的自动内容组织制造技术

技术编号:2914072 阅读:187 留言:0更新日期:2012-04-11 18:40
提供一种关联引擎,用于在逻辑数据库中组织内容项。在数据库中提取(S1)包括第一识别内容项的维度数据的第一描述数据。该过程可对其它可用的识别内容项重复进行(S3)。提取(S5)候选描述数据。然后,可以为每一候选内容项生成(S11)一组矢量值,每一矢量值表示在第一描述数据的一个维度的维度数据与候选描述数据的相应维度数据之间的相似度,所述维度例如是元数据、使用历史、种类、内容类型。基于被生成的矢量组值所表示的相似度,可以从候选内容项中选择(S15)一个相似的候选内容项,并在逻辑数据库的组织中与第一内容项组合在一起。

【技术实现步骤摘要】
【国外来华专利技术】本专利技术涉及数据库内容组织和管理领域,以及涉及内容项关联与分组。包括个人计算机上的硬盘驱动器和其它类型的存储介质的存储设备和数据库的存储容量,近年来一直在迅速增加。据估计,存储容量大约每12个月就翻一番,同时网络带宽也一直在迅速增加。其结果是,存储设备储存了更大量的内容,而这需要提高用户访问这些内容的能力。用户可能会由于存储于存储设备或数据库中的内容而过载,除非这些内容以某种方式管理或组织以供用户方便地访问。另一方面,没有以一种对用户透明的方式分组的内容可能会由于远离用户需求而“丢失”。存在存储设备组织的各种方案。Lawler的美国专利No.5,905,981公开使介质对象文档的内容与当前新闻文章关联起来,该文档包括一个具有对于每一介质对象的关键字的索引。Obrador的国际公开No.WO 2004/012105公开基于与一个或多个数据结构的相关程度从一个介质对象的集合中来选择介质对象,上述数据结构是从被索引的、临时排序的数据结构中选择出来的。然而,这些系统每个都需要某种索引、预先存在的排序,和/或关键字。当然对用户而言,手工组织存储设备或数据库的内容项以便获得令人满意的内容项分组,也是可能的。然而,这可能是一项耗时且任务繁重的工作。而且,随着存储设备或数据库中内容项的不断积累,需要对用户部分进行持续地干预以保持数据库中项目方便的和符合逻辑的分组。提供一种方法、系统、设备、引擎、装置以及计算机可读的介质,它体现或执行用于在逻辑数据库中组织内容项的关联引擎的功能。这可以如下实现。可以在逻辑数据库中提取第一描述数据,其包括用于第一识别内容项的维度数据。该过程可以对其它可用的识别内容项重复进行。可以进一步在逻辑数据库中提取候选描述数据,其包括用于候选内容项的相应维度数据。然后,可以为每一候选内容项生成一组矢量值,每一矢量值表示为在第一描述数据的一个维度的维度数据与-->候选描述数据的相应维度数据之间的相似度。基于由所生成的矢量值组表示的相似度,可以从候选内容项中选择一个相似的候选内容项。因此,可以将相似的候选内容项与逻辑数据库的组织中的第一内容项组合在一起。另外,维度数据的维度可以表示该项的内容类型、项的内容风格、项的种类、项元数据、项的使用历史、执行该项的执行者、与项关联的指导者、与项关联的创建者、或者提供项的需求。应该理解,元数据可以表示项的创建时间、项的创建地点、项的采集时间和/或项的采集地点。只有在由该组矢量值所表示的一个总相似度高于一个最小阈值时,才可以选择相似的候选内容项。该阈值可由用户决定或预先设置,或者由关联引擎依据已发现的结果来提供。另外,当由用户设置时,可以为用户提示一个默认阈值。进而,可以选择由该组矢量值所表示的具有最高总相似度的一个或多个候选内容项。如果有可用的其它识别内容项,则可以提取包括与第一识别内容项组合在一起的用于第二识别内容项的维度数据的描述数据。然后,同样基于表示在用于第二识别内容项的维度数据和相似的候选内容项的维度数据之间的相似度的第二组矢量值,可以选择该相似的候选内容项。在这种情况,可以选择该相似的候选内容项,从而对第一组矢量值与第二组矢量值采取平均、加权平均或相加。另外,可以选择一个表示维度的通用矢量(对于该维度,第一识别内容项的维度数据最接近第二识别内容项),因此,在选择相似的候选内容项时,对通用矢量的值的加权要大于其余的矢量值。另外,公开了基于分组的虚拟项生成。在逻辑数据库中提取第一描述数据,其包括用于第一识别内容项的维度数据。同样在逻辑数据库中提取第二描述数据,其包括用于第二识别内容项的维度数据。然后,在逻辑数据库中提取候选描述数据,其包括用于候选内容项的相应维度数据。可以通过对矢量值的一个虚拟项组取平均、加权平均或仅仅求和而构建一个虚拟项,这里每一矢量值表示在第一描述数据的维度数据的维度与第二描述数据的维度数据的相应维度之间的相似度。生成用于每一候选内容项的一组矢量值,每一矢量值表示在用于-->虚拟内容项的一个维度的维度数据与候选内容项的相应维度数据的相应维度之间的相似度。然后,通过对候选内容项的每组矢量值计算平均值、加权平均值和/或总和以作为一个测试值,并通过将测试值高于阈值的候选内容项确定为相似的候选内容项,从候选内容项中选择一个相似的候选内容项。将相似的候选内容项与逻辑数据库的组织中的第一内容项组合在一起。附图说明图1是根据本专利技术的一个实施例的所有关联引擎的示意图。图2A-2C是根据本专利技术的一个系统的操作流程图。图3表示根据本专利技术的一个实施例矢量值调整的数据图表。具体实施方式下面的讨论与上述附图描述申请人的专利技术的实施例,为本专利技术人目前的最佳理解,可是应该理解,能够对本专利技术进行很多修改,或者本专利技术以其它形式实施或者以其他方式实现,而不偏离本专利技术的精神。另外,所描述的实施例的特征可能会被省略、选择性地或作为整体与其它实施例组合,或者用来代替其它实施例的特征或其部分,都不偏离本专利技术的精神。因此,本图示与详细的描述作为本专利技术的方面的一个例证性的解说,但不应理解为限制本专利技术的范围。如图1所示,关联引擎1-1包括几个模块,下面对其进行描述。关联引擎1-1的模块或其一部分,和/或关联引擎整体,可包括硬件、软件、固件或是上述的组合。然而,某些模块例如可以包括硬件,而其它模块可包括软件、固件或其组合。应当理解,关联引擎的模块不需要全部位于或集成在同一设备内。关联引擎也可采用分布式结构,它可以“背负”在已有设备提供的适当模块上。以下的描述涉及关联引擎1-1,它在物理上与逻辑数据库1-2集成在一起或者通过有线或无线连接而连接到其上。逻辑数据库1-2可以在一个存储设备上实现,例如个人计算机的硬盘驱动器、个人视频记录器、娱乐系统、电子管理器、个人手持设备、Jaz驱动器,或者可以作为商业存储设施来实现,例如盘驱动器。应该理解,逻辑数据库1-2-->可以包括几个连接起来的存储设备,使得在两个或更多这样的存储设备上内容项的组织或分组是可能的。进而应当理解,逻辑数据库可理解为包括一种或多种存储介质,比如盘,包括CD、DVD、zip磁盘、软盘、数据盒式磁带等,这些介质能够被逻辑数据库1-2加载和检索。另外,可以对逻辑数据库进行远程访问,例如通过网络或因特网。如图1所示,关联引擎1-1包括一个描述数据提取器1-1本文档来自技高网...

【技术保护点】
一种在逻辑数据库中组织内容项的方法,该方法包括: 在逻辑数据库中提取(S1)第一描述数据,其包括第一被识别内容项的维度数据; 在逻辑数据库中提取(S5)候选描述数据,其包括候选内容项的相应维度数据; 生成(S11)每一个候 选内容项的第一组矢量值,每一矢量值表示在第一描述数据的一个维度的维度数据与候选描述数据的相应维度数据之间的一个相似度。 基于由已生成的第一组矢量值所表示的相似度,从候选内容项中选择(S15)一个相似候选内容项;和 在逻辑数据库的 组织中将该相似候选内容项与第一内容项组合(S16)在一起。

【技术特征摘要】
【国外来华专利技术】US 2004-12-1 60/632,1341.一种在逻辑数据库中组织内容项的方法,该方法包括:
在逻辑数据库中提取(S1)第一描述数据,其包括第一被识别内
容项的维度数据;
在逻辑数据库中提取(S5)候选描述数据,其包括候选内容项的
相应维度数据;
生成(S11)每一个候选内容项的第一组矢量值,每一矢量值表示
在第一描述数据的一个维度的维度数据与候选描述数据的相应维度数
据之间的一个相似度。
基于由已生成的第一组矢量值所表示的相似度,从候选内容项中
选择(S15)一个相似候选内容项;和
在逻辑数据库的组织中将该相似候选内容项与第一内容项组合
(S16)在一起。
2.根据权利要求1的方法,其中,维度数据的一个维度表示下列之
一:项的内容类型、项的内容风格、项的种类、项的使用历史、执行
该项的执行者、与项关联的指导者、与项关联的创建者、提供项的需
求,以及项的任何元数据。
3.根据权利要求2的方法,其中,元数据表示下列中一种:项的
创建时间、项的创建地点、项的采集时间、项的采集地点、上次使用
的时间、最常使用的时间段、上次使用的地点、以及最常使用的地点。
4.根据权利要求1的方法,其中,只有在由第一组矢量值所表示
的总相似度高于最小阈值时,才选择该相似候选内容项。
5.根据权利要求1的方法,其中,选择具有由第一组矢量值所表
示的最高总相似度的候选内容项。
6.根据权利要求1的方法,进一步包括:
提取(S3)描述数据,其包括与第一被识别内容项组合在一起的
第N被识别内容项的维度数据,N是大于1的任意正整数;和
同样基于表示在第N个被识别内容项的维度数据与相似候选内容
项的维度数据之间的相似度的第N组矢量值,自动选择(S15)相似候
选内容项。
7.根据权利要求6的方法,其中,选择该相似候选内容项,从而
对第一组矢量值与第N组矢量值取平均、加权平均或相加。
8.根据权利要求6的方法,包括选择一个表示一个维度的矢量作
为通用矢量,对于该维度,第一被识别内容项的维度数据最接近于第N
被识别内容项,并且在选择相似候选内容项时,对通用矢量的值比对
第一组矢量值和第N组矢量值的其余矢量值进行更大的加权。
9.一种在逻辑数据库中组织内容项的方法,该方法包括:
在逻辑数据库中提取(S1)第一描述数据,其包括第一被识别内
容项的维度数据;
在逻辑数据库中提取(S2)第N描述数据,其包括第N被识别内
容项的维度数据,N是大于1的任意正整数;
在逻辑数据库中提取(S5)候选描述数据,其包括候选内容项的
相应维度数据;
通过对虚拟项矢量值组采取平均或加权平均方式之一,构造
(S22)虚拟项,该虚拟项矢量值组的每一矢量值表示在第一描述数据
的维度数据的一个维度与第N描述数据的维度数据的一个相应维度之
间的相似度;
生成(S23)每一个候选内容项的一组矢量值,每一矢量值表示在
虚拟内容项的一个维度的维...

【专利技术属性】
技术研发人员:EMA迪德里克斯BM范德斯鲁伊斯
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1