用于数据库搜索的系统和方法技术方案

技术编号:12126237 阅读:76 留言:0更新日期:2015-09-25 14:41
在一项实施例中,用于搜索数据库的方法包括处理器接收来自用户的指示查询184的消息,其中所述查询包括模式;以及所述处理器根据所述数据库186的数据集确定第一阈值。所述方法还包括所述处理器比较所述模式和所述数据集合的第一键以产生比较188,以及所述处理器根据所述比较和所述第一阈值194确定是跳到所述数据集合的第二键还是扫描至所述数据集合的第三键,包括当所述比较的绝对值大于所述第一阈值198时,跳到所述数据集合的所述第二键,和当所述比较的所述绝对值小于或等于所述第一阈值196时,扫描至所述数据集合的所述第三键,其中所述第一键和所述第三键是连续的。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】 本专利技术要求2014年2月19日递交的专利技术名称为" (SystemandMethodforDatabaseSearching)" 的第 14/184582 号美国非临时专利申请 案以及2013年2月19日递交的专利技术名称为"用于多维数据库索引的快速键模式搜索的系 统和方法(SystemandMethodforaFastKeyPatternSearchforaMultidimensional DatabaseIndex) "的第61/766299号美国临时专利申请案的在先申请优先权,这两个在先 申请的内容以引入的方式并入本文本中。
本专利技术涉及用于数据库的系统和方法,尤其涉及。
技术介绍
现代数据仓库通常包含万亿条记录,每条记录都包含多个属性。业务智能任务,例 如分析查询、在线分析处理(0LAP)、数据挖掘等应相对较快地获取针对数据的临时分析查 询的答案。由于数据量,所以额外标引是有问题的,并且这些查询通过使用数据的全扫描来 回答。甚至当数据分布在簇中时,全扫描可能花费较长时间。传统关系数据仓库技术通常 与非关系分布式处理系统组合或被非关系分布式处理系统替代。扩展性和性能要求对于业 务智能应用是至关重要的。
技术实现思路
一种用于搜索数据库的实施例方法包括处理器接收来自用户的指示查询的消息, 其中所述查询包括模式;以及所述处理器根据所述数据库的数据集确定第一阈值。所述方 法还包括所述处理器比较所述模式和所述数据集的第一键以产生比较,以及所述处理器根 据所述比较和所述第一阈值确定是跳到所述数据集的第二键还是扫描至所述数据集的第 三键,包括当所述比较的绝对值大于所述第一阈值时,跳到所述数据集的所述第二键,和当 所述比较的所述绝对值小于或等于所述第一阈值时,扫描至所述数据集的所述第三键,其 中所述第一键和所述第三键是连续的。 一种用于搜索数据库的另一实施例方法包括处理器接收来自用户的指示查询的 消息,其中所述查询包括模式;以及所述处理器比较所述模式和所述数据库的数据集的第 一键以产生比较。所述方法还包括所述处理器根据所述比较记录结果以产生记录的结果以 及所述处理器根据所述比较确定是跳跃还是按序扫描。此外,所述方法包括所述处理器将 所述记录的结果发送给所述用户。 一种实施例计算机包括处理器和数据库,所述数据库包括多维数据库索引。所述 计算机还包括一种存储由所述处理器执行的程序的计算机可读存储介质。所述程序包括 进行以下操作的指令:接收来自用户的消息,其中所述消息指示查询,并且所述查询包括模 式;以及根据所述数据库的数据集确定第一阈值。所述程序还包括进行以下操作的指令: 比较所述模式和所述数据集的第一键以产生比较。此外,所述程序包括进行以下操作的指 令:根据所述比较和所述第一阈值确定是跳到所述数据集的第二键还是扫描至所述数据集 中的第三键,包括当所述比较的绝对值大于所述第一阈值时,跳到所述数据集的所述第二 键,和当所述比较的所述绝对值小于或等于所述第一阈值时,扫描至所述数据集的所述第 三键,其中所述第一键和所述第三键是连续的。 上文相当宽泛地概述了本专利技术的实施例的特征,目的是让人能更好地理解下文对 本专利技术的详细描述。下文中将描述本专利技术的实施例的额外特征和优点,其形成本专利技术的权 利要求书的标的物。所属领域的技术人员应了解,所公开的概念和具体实施例可容易地用 作修改或设计用于实现本专利技术的相同目的的其它结构或过程的基础。所属领域的技术人员 还应意识到,此类等效构造不脱离所附权利要求书中所提出的本专利技术的精神和范围。【附图说明】 为了更完整地理解本专利技术及其优点,现在参考下文结合附图进行的描述,其中: 图1示出了gz曲线的示例; 图2示出了投射到坐标向量的掩码; 图3示出了点模式搜索问题(PSP)的解决方案轨迹的实施例结构; 图4示出了范围PSP的解决方案轨迹的实施例结构; 图5示出了数据库搜索的实施例方法的流程图; 图6示出了若干过滤器组合的爬虫和草蜢策略的查询时间的图; 图7示出了不同数据存储的爬虫和草蜢策略的查询时间的图; 图8示出了呼叫详细记录(CDR)数据集的爬虫和草蜢策略的查询时间的图; 图9示出了事务处理性能委员会决策支持(TPC-DS)数据集的爬虫和草蜢策略的 查询时间的图; 图10示出了TPC-DS数据集的爬虫和草蜢策略的查询时间的另一图;以及 图11示出了通用计算机系统的实施例的方框图。 除非另有指示,否则不同图中的对应标号和符号通常指代对应部分。绘制各图是 为了清楚地说明实施例的相关方面,因此未必是按比例绘制的。【具体实施方式】 最初应理解,尽管下文提供一个或多个实施例的说明性实施方案,但可使用任意 数目的当前已知或现有的技术来实施所公开的系统和/或方法。本专利技术决不应限于下文所 说明的所述说明性实施方案、图式和技术,包含本文所说明并描述的示范性设计和实施方 案,而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。 数据仓库中使用的多维数据库通过使用字典和特定键复合将客户数据转换为键 值对。可按键顺序存储键值对。所有可能键的多维空间配有空间填充曲线,这样每个可能 键都对应曲线上的一个点。使用非常大的整数参数化这些点。针对客户数据的基于任意属 性的点、范围或集合过滤器的查询,以及基于这些属性的以上查询的组合都可以转化为基 于复合键的模式搜索问题。 实施例在表征复合键的有序整数集合内执行快速子集过滤。一实施例可用于在无 需额外标引的情况下加速针对数据仓库的临时分析查询。多个实施例可用于任意组合的多 个属性上的点、范围和集合约束。点过滤器为同等约束,范围过滤器为区间约束,以及集合 过滤器为子集约束。使用了跳过大部分无关键的顺序爬行的组合。可根据底层数据存储的 特征自适应地确定是否进行跳跃。 临时联机分析处理(OLAP)查询是一种可在一些参与变量上放置多个过滤器并且 可聚合量度值的查询。OLAP实施方式可使用字典来使用连续整数对维属性值进行编码。对 于具有代理键的有序属性,代理键可以是整数。对于无序属性,整数可能是连续的。对于无 序属性,可保留顺序。 维属性域的笛卡尔乘积形成复合键空间。向量依赖F随后将复合键与含量度的向 量形成映射。多维数据库技术基于给复合键空间赋予空间填充曲线,这样空间的每个元素 都对应曲线上的单个点,反之亦然。存在多种方式来选择该曲线。在一项示例中,使用了广 义Z曲线(gz曲线)。在gz曲线中,使用整数对曲线上的每个点进行编码,其中整数来自复 合键的分量的值。针对多维数据库的任意具有点、范围或集合过滤器的查询转化为gz曲线 上的模式搜索问题。 在OLAP字段中存在向量函数依赖: F: (D"? ?DN) -(M"? ?Mm)。 自变量Di是维度(维属性),而因变量^是量度。使用涉及维属性的其它函数依 赖来增强该依赖。独立属性是高级维属性。它们导致它们依赖的属性域内的分组,从而导 致对量度进行聚合操作。依赖可形成无回路有向图(DAG)。 可使用整数对维属性进行编码。如果属性为整数值,那么可在不进行额外编码的 情况下使用该属性。如果属性不是整数值,那么创建编码字典。对于自然序属性,编码保留 该顺序。可以使用由连续整数进行的密集编码。或者,不使用密集编码。在本文档来自技高网...

【技术保护点】
一种用于搜索数据库的方法,其特征在于,所述方法包括:藉由处理器接收来自用户的指示查询的消息,其中所述查询包括模式;藉由所述处理器根据所述数据库的数据集合确定第一阈值;藉由所述处理器比较所述模式和所述数据集合的第一键以产生比较;以及藉由所述处理器根据所述比较和所述第一阈值确定是跳到所述数据集合的第二键还是扫描至所述数据集合的第三键包括当所述比较的绝对值大于所述第一阈值时,跳到所述数据集合的所述第二键,以及当所述比较的所述绝对值小于或等于所述第一阈值时,扫描至所述数据集合的所述第三键,其中所述第一键和所述第三键是连续的。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:亚历山大·罗沙可夫斯基谢尔盖·各勒夫可
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1