数据仓库装置、用于构造其的方法及从中检索数据的方法制造方法及图纸

技术编号:2842216 阅读:239 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了数据存储及检索。数据仓库存储数据项和相关联的元数据值(21,22,…,27)以及在每一对元数据值之间定义的相关联的相关性值(212、217、227等)。为了检索数据,识别“最相关”的元数据值(21),并且首先检索与该元数据值相关联的数据项。根据其他数据项的相关联的元数据值(27)与所选元数据值(21)的相关性值(217)来对其他数据项进行分级。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及数据存储和检索处理,以及利用计算机来执行所述处理的手段。
技术介绍
数据检索通常使用被称为“浏览器”或“搜索引擎”的搜索工具。为了有效地进行数据检索,需要提供简单的用户界面,同时在后台使用高度复杂的信息检索技术。理想的系统应使用户能够利用单一而简单的搜索字段检索到他需要的所有信息而没有“误检(false drop)”(尽管满足搜索条件但与用户无关的数据项)。实际上,这是不可能实现的,因为必须在以下两者之间找到平衡充分精确地定义搜索条件从而使检索到的所有信息都相关;或者足够宽地定义搜索条件以便检索到所有相关信息。大多数搜索引擎都具有在最初的条件设定得太窄或太宽时改进搜索的措施。在搜索被定义得太宽的情况下,结果列表的导航本身就是个重要任务。可由用户来改进搜索,这本质上是对由最初的搜索结果限定的更有限的数据库重复进行该处理。然而,这样做不可避免地会存在丢失某些不符合该更加受限的搜索条件的数据的风险。因此理想的是,用户可以检查最初的搜索结果。这可以通过对结果进行排列的结构而方便地进行,该结构优选地在结果列表中的头几个条目内提供用户最有可能需要的数据。已知多种用于根据其可能相关性对搜索结果进行排序的方法。可以根据各个检索项目中的、搜索中所用的搜索词条之间的关系对数据项进行排序。例如,可以将其中两个关键词在文中彼此相邻出现的数据项排在其中相同的两个关键词分开较远出现的数据项目之上。其他方法包括按照数据项被访问的次数的顺序来排列这些数据项,或者某些其他普及性措施,例如“Google”(RTM)搜索引擎所用的方法,该方法利用了对每一独立站点所做的引用(超链接)的次数。Google所用的另一种方法是将被认为与已经列出的另一条目非常相似的条目列入下一级,从而提高在头几个条目中出现的数据项的多样性。然而,该排序方法假设所显示的数据项与下一级的数据项之间的差异对于用户的具体目的来说并不重要。所有这些普及性措施对大多数用户来说都提高了在头几个条目中找到他们所寻找的数据项的可能性。然而,对于那些寻找平常不太需要的数据项的用户(尽管是少数)来说很少会成功。已经作出了各种尝试,以利用用户的进一步输入来改善结果,例如通过搜索处理期间的对话,或者通过参考预先存储的用户简档。然而,这些技术并不分析被搜索数据的性质,而是需要用户进一步的输入。对于大小受限的数据集,特别是数据采集受控的数据集来说,通常以分级结构来组织数据,从而允许将搜索约束在该结构的给定级或层。一个示例为国际专利分类关键字,其用于辅助从在过去的大约150年内以各种语言公开的数百万份专利说明书中检索信息。然而,使用诸如相关加权算法的传统信息检索技术为每个查询存储整个数据集会使计算过于复杂,而不能在合理时间内给出搜索结果。此外,传统的分级结构需要做出最初假设,然而给定的单独搜索可能需要找到存在于该结构的不同分支上但是以与所用结构不相关的方式相关的数据项。例如,如果分级结构是基于应用的,则在数据库的截然不同的部分中可能出现因具有相同起源(制造商)、成分或组成部分而相关的数据项。
技术实现思路
根据本专利技术,提供了一种用于构造数据仓库(data repository)的处理,该处理包括以下步骤定义一组元数据值;定义每一对元数据值之间的相关性值; 将所述元数据值中的一个或更多个赋给要由所述仓库存储的多个数据项中的每一个;以及提供用于对根据数据项被赋予的元数据值和所述元数据值彼此的相关性进行了分组的数据项进行检索的手段。本专利技术延及根据这些原理进行了排序的数据仓库,更具体地说,延及以下数据仓库,该数据仓库具有用于存储数据项和相关联的元数据值的手段,以及用于存储在每一对元数据值之间定义的相关联的相关性值的手段,并且包括用于检索所述数据项及其被赋予的元数据值的手段,以及用于呈现根据数据项被赋予的元数据值和所述元数据值彼此的相关性进行了分组的数据项的手段。根据本专利技术,还提供了一种用于从如上所述构造的仓库中检索数据的处理,该处理包括以下步骤对具有一个或更多个预定特征的数据项进行搜索;识别与符合搜索条件的数据项最相关的元数据值;按照其他元数据值与该第一值的相关性的顺序对其他元数据值进行分级;以及根据数据项的相关联的元数据值的分级来呈现数据项。本专利技术可用于具有分级结构的数据集,尤其是太大而不能穷尽搜索但是对于实现数据采集足够小的分级结构。根据本专利技术进行操作的系统对按等级分类的数据进行重新排序,并将其呈现给操作者以便快速而直观地进行浏览。通过定义了可能相关性度量(measure of likeliness ofrelevance)的“模糊逻辑”处理对要呈现的数据进行预处理,然后相应地对数据进行排序。这使得能够根据相关联的元数据对数据进行分组,每个组都按照其对于搜索者的可能相关性的顺序进行了排序。并不是过滤掉被搜索引擎识别为相关可能性较小的信息,而是完整地提供数据集,不过要进行重新排序使得最相关的数据首先出现。因此,尽管不具有所选择元数据分类的数据项也被列在搜索结果中,但是根据由搜索定义并分配给数据项的元数据类之间的相关性而对这些数据项赋予低等级。所述相关性可以被定义为虚拟空间中的距离,如图2所示。该虚拟空间可以具有表示元数据之间的关系所必需的数量的维度,每一维度都涉及属性,并且该维度中的每个元数据项的坐标都是通过各个数据项与该属性的相关性来定义的。可以按照多种方式来定义这些属性。例如,可以按照各个类中所用的关键字的应用的重叠来对这些属性进行定义,这些关键字或者是有意插入的,或者是出现在文档的自然语言中。根据数据的特性,表示相关性的其他有用的元数据属性可以包括原作者(authorship)、同义词(来自相同或不同的语言)、创建日期等。本专利技术能够使计算机的处理数据结构和动态重排序的能力与操作者的利用认知推理来浏览数据的能力相结合。搜索者能够识别可能感兴趣的数据项组,使得能够更容易地确定哪些数据项值得考虑。例如,如果作为搜索结果,观察到许多具有特定元数据词条的数据项与它们的等级可能暗示的相关性不大,则它们被组在一起的事实使得用户能够容易地识别并忽略通过该搜索词条成组的所有数据项。从计算的角度来看,本专利技术使得该系统能够预计算出两个集合之间的距离(这里称为各分类之间的“语义差异”),并保持在特定查询的情况下以低成本对它们进行重新排序的能力。在优选设置中,元数据与搜索结果一起显示。因此,用户可以使元数据与搜索处理相关联,使它们能积累分类法(classification taxonomy)经验,从而在当前搜索的进展和临近的未来搜索中都起到辅助作用。附图说明现在将参照附图以示例的方式描述本专利技术的实施例,附图中图1是适于实现本专利技术的计算机系统的总体结构的示意图;图2示出了通过各个元数据分类对各个其他元数据分类进行的相对加权;图3是使用元数据的分类的表示;图4是表示搜索处理的流程图;图5是示出搜索结果的截屏图。具体实施例方式图1示出了可在其上运行实现本专利技术的软件的计算机的典型架构。各个计算机均包括中央处理单元(CPU)10,用于执行计算机程序并管理和控制计算机的操作。CPU 10通过总线11与多个装置相连,这些装置包括第一存储装置12(例如,用于存储系统和应用程序的硬盘驱动器)、第二存储装置13(例本文档来自技高网
...

【技术保护点】
一种数据仓库,该数据仓库具有用于存储数据项和相关联的元数据值的手段,以及用于存储在每一对元数据值之间定义的相关联的相关性值的手段,并且包括用于检索所述数据项及其被赋予的元数据值的手段,以及用于呈现根据所述数据项被赋予的元数据值和所述元数据值彼此的相关性进行了分组的所述数据项的手段。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:格里迪卡泰尔贝南阿斯文
申请(专利权)人:英国电讯有限公司
类型:发明
国别省市:GB[英国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1