【技术实现步骤摘要】
【国外来华专利技术】用于大规模并行处理的基于代价的动态计算节点分组优化本专利技术要求2016年12月9日递交的专利技术名称为“用于大规模并行处理的基于代价的动态计算节点分组优化”的第15/374,158号美国非临时专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文中。
技术介绍
大规模并行处理(massivelyparallelprocessing,简称MPP)无共享关系数据库管理系统(relationaldatabasemanagementsystem,简称RDBMS)通常包括多个无共享节点。一个无共享节点可以包括耦合到至少一个计算节点的至少一个存储器。通常,在MPP无共享RDBMS中,将若干存储器静态分配给特定无共享节点中的若干计算节点。在处理对MPP无共享RDBMS的查询时,可能需要对数据进行重新分区,并将所述数据从一个无共享节点传输到另一个无共享节点,其中,所述另一个无共享节点存储可能需要对该查询做出响应的其它数据。这种在存储器和计算节点之间静态分配的架构可能会导致某些计算节点使用不足或过度使用。此外,特定计算节点还可能被检索对该查询做出的响应的次优逻辑计划低效使用,而非有效使用存储器和计算节点的逻辑计划。
技术实现思路
在第一实施例中,本技术涉及一种大规模并行处理无共享关系数据库管理系统,其包括分配给多个计算节点的多个存储器。所述系统包括一个或多个处理器,其中,所述一个或多个处理器与用于存储指令的非瞬时性存储器通信。所述一个或多个处理器执行所述指令以用于:将数据集存储在所述多个存储器中的第一组存储器中,其中,所述第一组存储器分配给所述多个计算节点中的第一组计算节 ...
【技术保护点】
1.一种大规模并行处理无共享关系数据库管理系统,其特征在于,包括:分配给多个计算节点的多个存储器;非瞬时性存储器,用于存储指令;一个或多个处理器,与所述非瞬时性存储器通信,其中,所述一个或多个处理器执行所述指令以用于:将数据集存储在所述多个存储器中的第一组存储器中,其中,所述第一组存储器分配给所述多个计算节点中的第一组计算节点;通过哈希对所述数据集进行重新分区得到重新分区的数据集;将所述第一组存储器重新分配给所述多个计算节点中的第二组计算节点;将所述重新分区的数据集分发到所述第二组计算节点;通过所述第二组计算节点对所述重新分区的数据集执行数据库操作。
【技术特征摘要】
【国外来华专利技术】2016.12.09 US 15/374,1581.一种大规模并行处理无共享关系数据库管理系统,其特征在于,包括:分配给多个计算节点的多个存储器;非瞬时性存储器,用于存储指令;一个或多个处理器,与所述非瞬时性存储器通信,其中,所述一个或多个处理器执行所述指令以用于:将数据集存储在所述多个存储器中的第一组存储器中,其中,所述第一组存储器分配给所述多个计算节点中的第一组计算节点;通过哈希对所述数据集进行重新分区得到重新分区的数据集;将所述第一组存储器重新分配给所述多个计算节点中的第二组计算节点;将所述重新分区的数据集分发到所述第二组计算节点;通过所述第二组计算节点对所述重新分区的数据集执行数据库操作。2.根据权利要求1所述的系统,其特征在于,所述对所述数据集进行重新分区包括通过哈希形成所述数据集的较小哈希桶。3.根据权利要求1所述的系统,其特征在于,当重新分区键与用于对所述数据集进行分区的键相同时,则省略所述重新分区。4.根据权利要求1所述的系统,其特征在于,所述重新分配包括在所述第一组存储器和所述第二组计算节点之间形成网络连接,所述分发包括通过所述网络连接将所述重新分区的数据集分发给所述第二组计算节点。5.根据权利要求4所述的系统,其特征在于,所述第一组存储器和所述第一组计算节点在所述系统中形成无共享节点,所述数据库操作包括内部连接、扫描和重分布中的至少一个。6.根据权利要求5所述的系统,其特征在于,所述第一组存储器包括用于存储所述数据集的至少一个集成电路存储器,所述第一组计算节点包括至少一个集成电路处理器,其中,所述集成电路处理器通过信号路径耦合到所述集成电路存储器以传输所述数据集。7.根据权利要求1所述的系统,其特征在于,还包括所述一个或多个处理器执行所述指令以用于:获取多个逻辑计划,所述逻辑计划包括对存储在所述第一组存储器中的数据集进行的所述数据库操作;针对所述多个逻辑计划中的每个逻辑计划确定将所述数据集重分布到至少一个其他计算节点的成本;针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的成本;基于重分布所述数据集的成本以及所述通过分区间并行降低的成本,从所述多个逻辑计划中选择逻辑计划。8.一种计算机实现的用于访问数据的方法,其特征在于,所述方法包括:获取多个逻辑计划以响应查询;针对所述多个逻辑计划中的每个逻辑计划确定将存储在分配给计算节点的存储器中的数据集重分布到至少一个其他计算节点的成本;针对所述多个逻辑计划中的每个逻辑计划确定通过分区间并行降低的成本;基于重分布所述数据集的成本以及所述通过分区间并行降低的成本,从所述多个逻辑计划中选择逻辑计划。9.根据权利要求8所述的计算机实现的方法,其特征在于,所述逻辑计划包括针对所述数据集进行的至少一个数据库操作。10.根据权利要求9所述的计算机实现的方法,其特征在于,所述针对所述数据集进行的至少一个数据库操作包括连接、哈希聚合和重分布中的至少一个。11.根据权利要求8所述的计算机实现的方法,其特征在于,所述确定重分布所述数据集的成本包括:计算所述数据集中待处理的元组数量;计算所述数据集中元组的宽度;计算所述数据集的哈希成本因子;计算耦合在所述存储器和所述至少一个其他计算节点之间的网络的平均数据...
【专利技术属性】
技术研发人员:张立,杰森·扬·孙,丁永华,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。