【技术实现步骤摘要】
【国外来华专利技术】分布式数据系统中索引质量的测量与改进
技术介绍
[0001]分布式数据库是分布在一个或多个计算机网络和/或互联网上的互连的数据库的集合。数据库可以包括表、行、列以及这些元素之间的限定关系。数据库索引提供了用于改进数据库中数据库表的搜索的数据结构。可以为表中的列创建索引,并且允许对索引表中的记录进行快速查找和高效排序访问。因此,索引为访问数据库中的数据的应用提供了优势,例如快速访问数据库表中的数据。然而,随着时间的推移数据被修改(例如,通过插入、删除等),如果没有得到适当的维护,该索引的有效性可能会下降。
技术实现思路
[0002]提供本
技术实现思路
是为了以简化形式介绍一组概念,这些概念将在下面的详细描述中进一步描述。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用来限制所要求保护的主题的范围。
[0003]本文描述的方法、系统、装置和计算机可读存储介质被配置为测量和改进分布式数据系统的索引质量。例如,在分布式数据系统的每个分区的基础上确定各种质量度量。质量度量中的每个质量度量指示分区的特定属性的质量。例 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:经由网络从第一计算节点接收由分布式数据库系统维护的针对数据库表的第一分区的第一质量度量,所述第一质量度量指示所述第一分区的第一属性的质量;经由所述网络从第二计算节点接收针对所述数据库表的第二分区的第二质量度量,所述第二质量度量指示所述第二分区的第二属性的质量;至少基于所述第一质量度量和所述第二质量度量来生成指示所述分布式数据库系统的索引的所述性能的全局质量度量;基于所述全局质量度量满足关于预定阈值的条件来检测关于所述索引的低效;以及响应于检测到所述低效,执行改变由所述数据库表存储数据的方式的动作。2.根据权利要求1所述的方法,其中所述第一质量度量包括所述第一分区的行数,其中所述第二质量度量包括所述第二分区的行数,并且其中所述生成所述全局质量度量包括:至少分析所述第一质量度量和所述第二质量度量以确定至少所述第一分区的所述行和所述第二分区的所述行的分布是否满足关于第二预定阈值的条件;响应于确定至少所述第一分区的所述行和所述第二分区的所述行的所述分布满足关于所述第二预定阈值的所述条件,维护至少所述第一分区和所述第二分区所基于的分区键;以及响应于确定至少所述第一分区的所述行和所述第二分区的所述行的所述分布不满足关于所述第二预定阈值的所述条件,确定针对至少所述第一分区和所述第二分区的不同分区键。3.根据权利要求2所述的方法,其中所述执行改变由所述数据库表存储数据的所述方式的所述动作包括:根据所述不同分区键对所述数据库表进行分区。4.根据权利要求1所述的方法,其中所述第一质量度量包括至少基于第一重叠值的第一数据集群质量度量,所述第一重叠值指示包括具有第一多个集群键中的特定集群键的特定值的行的所述第一分区的数据文件的最大数目,并且其中所述第二质量度量包括至少基于第二重叠值的第二数据集群质量度量,所述第二重叠值指示包括具有针对第二多个集群键中的特定集群键的特定值的行的所述第二分区的数据文件的最大数目,并且其中所述生成所述全局质量度量包括:从至少所述第一数据集群质量度量和所述第二数据集群质量度量中确定最大数据集群质量度量;响应于确定所述第一数据集群质量度量是所述最大数据集群质量度量,将所述第一数据集群质量度量指定为全局数据集群质量度量;以及响应于确定所述第二数据集群质量度量是所述最大数据集群质量度量,将所述第二数据集群质量度量指定为所述全局数据集群质量度量。5.根据权利要求4所述的方法,其中所述执行改变由所述数据库表存储数据的所述方式的所述动作包括:响应于确定所述第一数据集群质量度量是所述最大数据集群质量度量,对存储具有针对所述第一多个集群键的值的行的所述第一分区的所述数据文件的至少子集进行重新集群,使得所述第一分区的所述数据文件的至少所述子集存储具有针对所述第一多个集群键
中的单个集群键的值的行;以及响应于确定所述第二数据集群质量度量是所述最大数据集群质量度量,对存储具有针对所述第二多个集群键的值的行的所述第二分区的所述数据文件的至少子集进行重新集群,使得所述第二分区的所述数据文件的至少所述子集存储具有针对所述第二多个集群键中的单个集群键的值的行。6.根据权利要求1所述的方法,其中所述第一质量度量包括第一数据封装质量度量,所述第一数据封装质量度量基于所述第一分区的数据文件的第一平均文件质量,所述第一平均文件质量基于由所述第一分区的所述数据文件中的每个数据文件存储的行数和预定的理想行计数参数;其中所述第二质量度量包括第二数据封装质量度量,所述第二数据封装质量度量基于所述第二分区的数据文件的第二平均文件质量,所述第二平均文件质量基于由所述第二分区的所述数据文件中的每个数据文件存储的行数和所述预定的理想行计数参数,并且其中所述生成所述全局质量度量包括:至少基于所述第一数据封装度量和所述第二数据封装度量来生成全局数据封装质量度量。7.根据权利要求6所述的方法,其中所述执行改变由所述数据库表存储数据的所述方式的所述动作包括:执行以下至少一项:合并所述第一分区的所述数据文件中的两个或更多个数据文件,所述两个或更多个数据文件各自具有小于所述预定的理想行计数参数的行数;或者合并所述第二分区的所述数据文件中的两个或更多个数据文件,所述两个...
【专利技术属性】
技术研发人员:B,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。