在数据库中组织数据制造技术

技术编号:2871238 阅读:188 留言:0更新日期:2012-04-11 18:40
提供了数据库,其中结论集(conclusion sets)(20,22,24,26,28和30)被分为一系列分等级的级别(级别1,级别2,级别3)。当结论集是完整时之前,数据在第一级别(级别1)处被附加到结论集。然后数据被从结论集(20)移动到其从属结论集(24,26),因此由于在相对少的磁盘存取操作中移动多通道(entries)而减少了需要将数据附加到数据库的磁盘存取的数量。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及在数据库中组织数据的方法,以及实现这样方法的数据库。典型的数据库,无论它们是在该申请的共同待批准的英国专利申请GB0029238.3中说明的类型,还是诸如“B-树”结构这样的其它未知的类型,它们具有决策图表或其它索引,指向保存匹配搜索标准的数据的结论集。附加的和/或二者择一的该结论集可保存指向匹配搜索键(search key)数据位置的指针。在任何适当大小的数据库中,结论集被保存在海量存储器媒体中,这里通常是指硬盘驱动器。硬盘装置(的速度)要比半导体存储器慢得多,并且由于得对这些海量存储装置执行这些输入/输出(I/O)操作,所以数据库性能可能会受到影响。即使使用开销的最小索引,通常数据库得执行2个I/O操作,作为将数据插入到索引和结论集中的读、修改和重写循环的一部分。根据本专利技术的第一方面,提供了在数据库中组织数据存储的方法,其中对数据库的结论集被以分等级的结构排列,并且在其中这样安排该结论集,以使在项(items)的数量接近对选择结论集的阈值之前在第一显著级别处将项插入到选择的结论集中,然后选择结论集的内容被移动到从属结论集,从而清空了选择结论集。这样可以提供已修改的结论集结构,显著地减少了紧跟在决策图表输出之后的结论集数量。进一步,也可能在决策图表中分布结论集。优先领域数据库将具有单“层”结论集,可从决策图表中存取。插入到结论集中的新数据项将至少需要2个I/O操作来包括该数据(该数据可仅属于一个结论集,若插入的数据可属于不只一个结论集,则可能属于更多I/O操作。)通过在分等级的结构中组织结论集,可大大减少可直接从决策图表存取的结论集的数量。当然,可以保持绝大多数分等级的,显著的,(即最高级别)快速存储器中的结论集,诸如半导体存储器。在本专利技术的那些实施例中,这一点尤其真实,其中通过决策图表来分布结论集。通过保持半导体存储器中的最高级别的结论集,当将数据插入到数据库中时,没有引起I/O损耗。这样就可能在键和数据插入操作过程中提供数据库性能的显著改善。有利的是,在这样的时间,即结论集变得完整或其中通道的数量超过了预定级别之前,高级别的结论集有效的高速缓存数据。然后,通过将结论集的内容移动到从属结论集来清空该结论集。在移动过程中,通过参考搜索标准,即搜索键将该数据分类,这样以使可期望该数据在直接从属结论集之间随机分布。可在结论集结构中对许多分等级的级别重复这个填充(filling)和移动过程。数据的移动可能需要,实际上经常需要在一个或多个保持在海量媒体存储器中的结论集之间进行数据传递。这样就引起了磁盘读和磁盘写操作,但现在这些出现在对总体上的结论集中,而不是对在结论集中的每个单独项中,从而每通道的I/O损耗就被大大减少了。有利的是,为了知道匹配数据是否被保存在恰当的最高级别结论集和每个从属结论集中,在键检索(key retrieval)或删除过程中,检查其决策标准匹配该搜索键的恰当最高级别结论集和每个从属结论集。这样,与优先领域数据库比较,开销的数据库查询(database query)就增加了,但在插入数量大,但查询数量较低的某些数据库结构中,这一点是可接受的。在结论集被分布在整个决策图表中的本专利技术那些实施例中,可约束结论集间(inter-conclusion set)距离,以阻止结论集出现得太频繁。有利的是,结论集距离参数由整数Q定义。Q可采用比0大或等于0的数字。这样,例如,可创建数据库Q=0可在每个分支节点处形成结论集。Q=1可在每个其它分支节点处形成结论集。Q=2可在每个第二分支节点处形成结论集。等等。可在获得最后Q层决策图表之前,在整个决策图表中维持这些规则。在这些层中,有关结论集之间的分等级距离的规则变得不能执行,并且因此不能严格应用。根据本专利技术的第二方面,提供了数据库,其中以分等级的结构放置对该数据库的结论集,而且其中排列该结论集,这样以使在其中项的数量达到阈值之前,在第一显著级别处将项插入到选择结论集中,然后选择结论集的内容被移动到从属结论集中,从而清空选择结论集。根据本专利技术的第三方面,提供用于使数据处理器依照本专利技术的第一方面来运行的计算机程序产品。将通过例子,参考附图,进一步说明本专利技术,其中附图说明图1示意性的阐明了具有以传统方式放置结论集的数据库;图2示意性的阐明了具有依照本专利技术放置结论集的数据库;图3示意性的阐明了具有在决策图表中分布结论集的数据库,并组成本专利技术的实施例。图1中所示的数据库具有指数2,并包含决策图表4和许多结论集6、8、10、12和14。通过一个且仅一个通过决策图表的路径来获得每个结论集。然而,接着每个结论指向数据存储16中的相关通道。决策图表4包含许多决策节点,在那里为了定义通过决策图表应采用哪条路径,搜索键与决策标准匹配。在决策图表中该键的内在组织没有组成本专利技术的部分,从而不必在这里详细说明。然而,在决策图表中可利用诸如B-树索引这样的优先领域索引结构。在图1中所示的布置中,所有的结论集6、8、10、12和14有相同的重要性,这样无结论集分等级的比任何其它的结论集更重要,并且确实可能有成百上千甚至成千上万的结论集。在图2中所示的布置中,该结论集以分等级的结构排列。在那里阐明的布置中,具有级别1的3个级别的结论集是分等级中最重要的,而级别3是分等级中最不重要的。这样在这个布置中,由于有级别3结论集,所以仅有四分之一数量的级别1结论集,并且又在这个例子中,一个级别1结论集将该通路标记为6个其它结论集。明显的,当级别数量接着增加到在最不重要级别处的结论集的给定数量时,级别1结论集的数量就逐渐减少了。现在假设我们想要将通路插入到数据库中。依照对该通路的插入键来操纵该决策图表,如同在优先领域数据库的情况下,以发现该通路属于哪个结论集。在图1中阐明的数据库中,这将导至唯一识别的一个结论集。然而,在本专利技术中,这导至识别许多级别1结论集的一个结论集20(在许多级别1结论集中仅明确显示了2个20和22)。有利的是,级别1结论集20和22也保存在快速存储器中,即快速海量媒体存储装置或更好依旧是(译者注原文这里为still,我不确定这里应当理解为“静态的”还是“仍旧”)半导体存储器,这样以使在将数据插入到结论集20中所开销的时间相比将数据插入到传统数据库的结论集6、8、10、12和14中的一个中所需的时间而言较少。当然,若级别1结论集20和22被保持在半导体存储器中,则在向其中写时,就没有引起I/O损耗。在时间中,当越来越多数据被插入到数据库中时,结论集20开始填充。一旦结论集20中的通道数量达到预定的数量时,相应于该结论集就完整了。结论集20中的通道被移动到直接从属结论集24和26中,其属于级别2的分等级结构。通过继续操作存在于决策图表4中的规则,而决定其中较低级别结论集22和24从级别1结论集20接收通道的决策。这样,例如,若决策图表4具有基于以位数量的升序(排列的)单独位值的规则,则用于将数据从最高级别结论集移动到第二级别结论集24和26的规则将使用搜索键中的下一位来决定对每个数据项哪个结论集24或26应该是接受者。在这个移动过程中,结论集20被清空了。当那里的每个结论集填补时,从第N级别移动到第N+1级别的过程出现在结论集层次的每个级别处。这样本文档来自技高网...

【技术保护点】
组织数据库(2)中的数据存储方法,其特征在于,对所述数据库的结论集(20,24,26,28,30,40,50,60)被布置为分等级的结构,而且布置所述结论集,这样以使在项的数量到达所述选择结论集的阈值之前,项被插入到在第一级别重要性(级别1)处的选择结论集中,然后所述选择结论集的内容被移动到从属结论集,从而清空所述选择结论集。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:DG保利
申请(专利权)人:考珀瑞耶有限公司
类型:发明
国别省市:GB[英国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1