大规模数据管理系统中利用图团体监测的预测表预连接技术方案

技术编号:22334416 阅读:17 留言:0更新日期:2019-10-19 13:05
一种计算机实现的用于标识预连接操作的方法,在访问关系表数据库时基于表使用历史和/或优先需求执行所述方法,所述方法包括:创建加权边线与节点的图,其中所述节点表示关系表,所述边线表示要执行于所述表的连接操作;根据对应的图团体密度,将所述图分区成多个图团体,其中一个所述图团体密度指示与特定节点接触的边线的数量,所述边线的数量大于预定的边线数量阈值,每个边线还包括边线权重,所述边线权重表明在预定的最近持续时间内的参考频率和/或在预定的最近持续时间内的对应的连接结果的快速访问紧迫性;以及基于所述分区后的图团体以及所述图团体密度,生成预连接结果。

【技术实现步骤摘要】
【国外来华专利技术】大规模数据管理系统中利用图团体监测的预测表预连接交叉申请本申请要求于2017年3月27日提交的美国非临时申请号15/470,813的优先权,其标题为“大规模数据管理系统中利用图团体监测的预测表预连接(PredictiveTablePre-JoinsinLargeScaleDataManagementSystemUsingGraphCommunityDetection)”,其又要求于2016年12月16日提交的美国临时专利申请号62/435,606的优先权,其标题为“大规模数据管理系统中利用图团体监测的预测表预连接(PredictiveTablePre-JoinsinLargeScaleDataManagementSystemUsingGraphCommunityDetection)”,这两个专利申请的全部内容以引用的方式并入本文中。
技术介绍
大规模数据挖掘,有时称为‘大数据’,通常需要实时维护海量的企业级数据库以及使用大量数据分析程序从数据库提取当前有意义信息。企业级数据库通常存储大量关系表,该大量关系表其为系统跟踪的数据对象(如顾客、产品、雇员和销售交易等)提供基础关系属性。数据挖掘经常需要标识系统跟踪的数据对象之间的复杂相关性(如,在选定类的销售交易中,哪些顾客满意哪些雇员的服务?)。这些类型的分析通常需要选择性连接来自多个数据库表的数据。此领域所新起的挑战包括,任凭海量数据库规模不断增加,须提高大数据挖掘结果生成速率,以及高效利用有限的数据处理资源。实现这些目标的一个方法是依靠预计算,其中在执行程序前,进行某些在执行数据分析程序时有可能需要的计算操作,这样计算结果可以在当前执行程序时立即使用。一个预计算形式称为预连接操作。这里,将在分析程序中选择性连接在一起的表提前连接在一起。传统数据库预连接技术在表数量显著增加时性能表现不佳。本文公开改进方法及系统。
技术实现思路
一种计算机实现的用于标识一套要执行的预连接操作的方法,在访问关系表数据库时基于表使用历史和/或优先级需求执行所述方法,所述方法包括:创建加权边线与节点的图,其中所述节点表示关系表,所述边线表示要执行于所述表的连接操作;根据对应的图团体密度,将所述图分区成多个图团体,其中一个所述图团体密度指示与特定节点接触的边线的数量,所述边线的数量大于预定的边线数量阈值,每个边线还包括边线权重,所述边线权重表明在预定的最近持续时间内的参考频率和/或在预定的最近持续时间内的对应的连接结果的快速访问紧迫性;以及基于所述分区后的图团体以及所述图团体密度,生成预连接结果。一些方法实施例中,边线权重基于与所述边线相关联的边线元数据,所述边线元数据指示以下各项中的至少一个:连接的类型、连接动的态特性、所述连接的参考概率、所述连接的几何结构、所述连接的方向、所述连接结果的参考频率、所述连接结果的参考频率的历史趋势,或使所述连接结果基本上立即可用的紧迫性优先级。一些方法实施例中,所述边线元数据为所述对应的边线和/或表示的一套连接操作提供唯一标识。一些方法实施例中,所述边线元数据标识所述对应边线连接的表。一些方法实施例中,所述节点与节点元数据相关联,所述节点元数据指示以下各项中的至少一个:唯一节点标识、所述节点表示的表的标识、表类型的标识,表大小的指示、在所述表的轴的不同方位维度中的最大程度的指示、所述表需要在存储器内的持续多久的指示或期望的用于访问所述表的访问速度的指示。一些方法实施例中,进行图团体检测过程之前,过滤所述图留下具体的一个或多个不同连接类型。一些方法实施例中,所述预连接结果的所述生成包括:将监测到的图团体根据图团体密度进行排序,其中所述图团体密度表明所述图团体的成员的统一参考频率和/或表明所述图团体的所述成员的统一访问紧迫性;以及标识所述已排序图团体之一中最密集节点。一些方法实施例中,所述预连接结果的所述生成还包括从第一已排序图团体到下一个已排序图团体基于所述排序进行排列。一些方法实施例中,所述预连接结果的所述生成还包括确定预连接结果是否将大于预定的表大小阈值,以及如果所述预连接结果将大于所述预定的表大小阈值,指定用于分区的对应的预连接候选。一种数据库设备包括:存储器存储,所述存储器存储包括指令;以及与所述存储器通信的一个或多个处理器,其特征在于,所述一个或多个处理器执行所述指令以:创建加权边线与节点的图,其中所述节点表示关系表,所述边线表示要执行于所述表的连接操作;根据对应的图团体密度,将所述图分区成多个图团体,其中一个所述图团体密度指示与特定节点接触的边线的数量,所述边线的数量大于预定的边线数量阈值,每个边线还包括边线权重,所述边线权重表明在预定的最近持续时间内的参考频率和/或在预定的最近持续时间内的对应的连接结果的快速访问紧迫性;以及基于所述分区后的图团体以及图团体密度,生成预连接结果。一些数据库设备实施例中,边线权重基于与所述边线相关联的边线元数据,所述边线元数据指示以下各项中的至少一个:连接的类型、连接的动态特性、所述连接的参考概率、所述连接的几何结构、所述连接的方向、所述连接结果的参考频率、所述连接结果的参考频率的历史趋势,或使所述连接结果基本上立即可用的紧迫性优先级。一些数据库设备实施例中,所述边线元数据为所述对应的边线和/或表示的一套连接操作提供唯一标识。一些数据库设备实施例中,所述边线元数据标识所述对应边线连接的表。一些数据库设备实施例中,所述节点与节点元数据相关联,所述节点元数据指示以下各项中的至少一个:唯一节点标识、所述节点表示的表的标识、表类型的标识,表大小的指示、在所述表的轴的不同方位维度中的最大程度的指示、所述表需要在存储器内的持续多久的指示或期望的用于访问所述表的访问速度的指示。一些数据库设备实施例中,进行图团体检测过程之前,过滤所述图留下具体的一个或多个不同连接类型。一些数据库设备实施例中,所述预连接结果的所述生成包括:将监测到的图团体根据图团体密度进行排序,其中所述图团体密度表明所述图团体的成员的统一参考频率和/或表明所述图团体所述成员的统一访问紧迫性;以及标识所述已排序图团体之一中最密集节点。一些数据库设备实施例中,所述预连接结果的所述生成还包括从第一已排序图团体到下一个已排序图团体基于所述排序进行排列。一些数据库设备实施例中,所述预连接结果的所述生成还包括确定预连接结果是否将大于预定的表大小阈值,以及如果所述预连接结果将大于所述预定的表大小阈值,指定用于分区的对应的预连接候选。提供本
技术实现思路
以便以简化形式介绍将在以下具体实施方式中进一步描述的一些概念。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于帮助确定所要求保护的主题的范围。附图说明图1A为包括预加载以及预计算能力中的至少一个的查询处理系统的框图;图1B为描述基于图分析的用于规划及执行预加载以及预计算操作中的至少一个的方法的示意图;图1C为描述真实世界环境中的特定企业以及通过该企业的数据挖掘应用使用数据库表的示意图;图1D为描述具有两个通过连接器分支相互连接的节点的基本图的示意图;图2A为描述本公开提供的图结构的示意图,其具有表示数据库表的节点以及表示不同类型的聚合操作如预连接操作的连接;图2B为团体监测后的结果图;图3为描述标识本文档来自技高网
...

【技术保护点】
1.一种计算机实现的用于标识一套要执行的预连接操作的方法,其特征在于,在访问关系表数据库时基于表使用历史和/或优先级需求执行所述方法,所述方法包括:创建加权边线与节点的图,其中所述节点表示关系表,所述边线表示要执行于所述表的连接操作;根据对应的图团体密度,将所述图分区成多个图团体,其中一个所述图团体密度指示与特定节点接触的边线的数量,所述边线的数量大于预定的边线数量阈值,每个边线还包括边线权重,所述边线权重表明在预定的最近持续时间内的参考频率和/或在预定的最近持续时间内的对应的连接结果的快速访问紧迫性;以及基于所述分区后的图团体以及所述图团体密度,生成预连接结果。

【技术特征摘要】
【国外来华专利技术】2016.12.16 US 62/435,606;2017.03.27 US 15/470,8131.一种计算机实现的用于标识一套要执行的预连接操作的方法,其特征在于,在访问关系表数据库时基于表使用历史和/或优先级需求执行所述方法,所述方法包括:创建加权边线与节点的图,其中所述节点表示关系表,所述边线表示要执行于所述表的连接操作;根据对应的图团体密度,将所述图分区成多个图团体,其中一个所述图团体密度指示与特定节点接触的边线的数量,所述边线的数量大于预定的边线数量阈值,每个边线还包括边线权重,所述边线权重表明在预定的最近持续时间内的参考频率和/或在预定的最近持续时间内的对应的连接结果的快速访问紧迫性;以及基于所述分区后的图团体以及所述图团体密度,生成预连接结果。2.根据权利要求1所述的方法,其特征在于,边线权重基于与所述边线相关联的边线元数据,所述边线元数据指示以下各项中的至少一个:连接的类型、连接的动态特性、所述连接的参考概率、所述连接的几何结构、所述连接的方向、所述连接结果的参考频率、所述连接结果的参考频率的历史趋势,或使所述连接结果基本上立即可用的紧迫性优先级。3.根据权利要求2所述的方法,其特征在于,所述边线元数据为所述对应的边线和/或表示的一套连接操作提供唯一标识。4.根据权利要求2所述的方法,其特征在于,所述边线元数据标识所述对应边线连接的表。5.根据权利要求1所述的方法,其特征在于,所述节点与节点元数据相关联,所述节点元数据指示以下各项中的至少一个:唯一节点标识、所述节点表示的表的标识、表类型的标识、表大小的指示、在所述表的轴的不同方位维度中的最大程度的指示、所述表需要在存储器内的持续多久的指示或期望的用于访问所述表的访问速度的指示。6.根据权利要求2所述的方法,其特征在于,进行图团体检测过程之前,过滤所述图留下具体的一个或多个不同连接类型。7.根据权利要求1所述的方法,其特征在于,所述预连接结果的所述生成包括:将监测到的图团体根据图团体密度进行排序,其中所述图团体密度表明所述图团体的成员的统一参考频率和/或表明所述图团体的所述成员的统一访问紧迫性;以及标识所述已排序图团体之一中最密集节点。8.根据权利要求7所述的方法,其特征在于,所述预连接结果的所述生成还包括从第一已排序图团体到下一个已排序图团体基于所述排序进行排列。9.根据权利要求7所述的方法,其特征在于,所述预连接结果的所述生成还包括确定预连接结果是否将大于预定的表大小阈值,以及如果所述预连接结果将大于所...

【专利技术属性】
技术研发人员:夏应龙梁定裕
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1