一种针对分布式数据库系统的数据处理方法、装置及系统制造方法及图纸

技术编号:36700546 阅读:22 留言:0更新日期:2023-03-01 09:16
本发明专利技术实施例提供了一种针对分布式数据库系统的数据处理方法、装置及系统。该方法应用于分布式数据库系统中的管理服务器,管理服务器获取各个分片节点的文件信息;其中,每一分片节点的文件信息至少用于指示该分片节点所存储子文件中的关联子文件,该关联子文件为属于不同文件但存在关联关系的多个子文件;按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件;其中,该文件选取规则包括:针对所述关联子文件,在文件选取时,以该关联子文件所包含全部子文件作为选取粒度;再将待迁移文件迁移至扩容节点。本方案,可以提高扩容后的分布式数据库系统针对访问指令的执行效率。的分布式数据库系统针对访问指令的执行效率。的分布式数据库系统针对访问指令的执行效率。

【技术实现步骤摘要】
一种针对分布式数据库系统的数据处理方法、装置及系统


[0001]本专利技术涉及数据处理
,特别是涉及一种针对分布式数据库系统的数据处理方法、装置及系统。

技术介绍

[0002]在分布式数据库系统中,管理服务器将任一文件以物理子表的形式分布存储于多个分片节点,这样形成了逻辑文件+分区文件的存储形式。
[0003]弹性扩容是分布式数据库系统必备的基础功能。其中,在分布式数据库系统中增设扩容节点后,即增加新的分片节点后,将文件的数据内容进行数据重分布,以完成扩容。
[0004]相关技术中,原始的分片节点中的各个子文件,在扩容后,可能被分布到不同的分片节点中。这样会存在如下问题:针对访问指令的响应,扩容前,管理服务器可以下推访问指令至各分片节点进行响应,并汇总各分片节点上报的结果,而在扩容后,需要管理服务器读取各分片节点的相关数据然后利用相关数据进行指令响应,导致大大降低访问指令响应过程的执行效率。

技术实现思路

[0005]本专利技术实施例的目的在于提供一种针对分布式数据库系统的数据处理方法、装置及系统,用于提高扩容后的分布式数据库系统针对访问指令的执行效率。具体技术方案如下:
[0006]第一方面,本专利技术实施例提供了一种针对分布式数据库系统的数据处理方法,应用于分布式数据库系统中的管理服务器,所述分布式数据库系统还包括多个分片节点;所述方法包括:
[0007]获取各个分片节点的文件信息;其中,每一分片节点的文件信息至少用于指示该分片节点所存储子文件中的关联子文件,所述关联子文件为属于不同文件但存在关联关系的多个子文件;
[0008]按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件;其中,所述文件选取规则包括:针对所述关联子文件,在文件选取时,以所述关联子文件所包含全部子文件作为选取粒度;
[0009]将所述待迁移文件迁移至扩容节点;其中,所述扩容节点为系统扩容时在所述分布式数据库系统中预先增设的分片节点。
[0010]可选地,所述按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件,包括:
[0011]根据各个分片节点的指定指标值,确定需要迁移文件的至少一个分片节点,以及所述至少一个分片节点对应的待迁移数据量;其中,所述指定指标值用于表征存储空间使用情况;
[0012]针对所述至少一个分片节点中的每一节点,按照预定的文件选取规则,从该节点
所存储的子文件中,选取与该分片节点对应的待迁移数据量相匹配的独立子文件和/或关联子文件,作为该节点的待迁移文件;其中,所述独立子文件为与其他子文件不存在关联关系的子文件。
[0013]可选地,所述按照预定的文件选取规则,从该节点所存储的子文件中,选取与该节点对应的待迁移数据量相匹配的独立子文件和/或关联子文件,作为该节点的待迁移文件,包括:
[0014]确定该节点的文件信息所指示的关联子文件的第一数据量,以及该分片节点中独立子文件的第二数据量;
[0015]按照预定的文件选取规则,基于所述第一数据量和所述第二数据量,从该节点所存储的子文件中,选取与该节点对应的待迁移数据量相匹配的独立子文件和/或关联子文件,作为该节点的待迁移文件。
[0016]可选地,所述将所述待迁移文件迁移至扩容节点,包括:
[0017]向所述待迁移文件所属的分片节点,下发针对所述待迁移文件的迁移指令,以使接收所述迁移指令的分片节点以子文件为迁移粒度,将所述待迁移文件,向扩容节点进行迁移。
[0018]可选地,每一分片节点的文件信息所指示的关联子文件的确定方式包括:
[0019]确定各个目标文件中,存在关联关系的关联文件,所述目标文件为该分片节点中所存储子文件属于的文件;
[0020]利用所述关联文件所包含目标文件的、位于该分片节点中的子文件,确定该分片节点中的关联子文件。
[0021]可选地,所述确定各个目标文件中,存在关联关系的关联文件,包括:
[0022]获取用户给定的关联文件声明信息;
[0023]基于所述关联文件声明信息,识别各个目标文件中,存在关联关系的关联文件。
[0024]可选地,所述利用所述关联文件所包含目标文件的、位于该分片节点中的子文件,确定该分片节点中的关联子文件,包括:
[0025]确定该分片节点所存储的、属于各个指定文件的子文件中,符合预定匹配规则的子文件,作为关联子文件;
[0026]其中,所述指定文件为所述关联文件所包含的目标文件,所述预定匹配规则包括:具有相同子文件标识,或者,存在相匹配的列内容。
[0027]可选地,所述确定该分片节点所存储的、属于各个指定文件的子文件中,符合预定匹配规则的子文件,作为关联子文件之前,所述确定方式还包括:
[0028]检测该分片节点所存储的、属于每一指定文件的子文件的数量;
[0029]若检测到的数量均为1,将属于各个指定文件的子文件,确定为关联子文件;
[0030]若检测到的数量均大于1,则执行所述确定该分片节点所存储的、属于各个指定文件的子文件中,符合预定匹配规则的子文件,作为关联子文件的步骤。
[0031]第二方面,本专利技术实施例提供了一种分布式数据库系统,包括:管理服务器和多个分片节点;
[0032]每一分片节点,用于确定该分片节点的文件信息;向所述管理服务器上报该分片节点的文件信息;其中,该分片节点的文件存信息至少用于指示该分片节点所存储子文件
中的关联子文件,所述关联子文件为属于不同文件但存在关联关系的多个子文件;
[0033]所述管理服务器,用于获取各个分片节点的文件信息;按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件;将所述待迁移文件迁移至扩容节点;其中,所述文件选取规则包括:针对所述关联子文件,在文件选取时,以所述关联子文件所包含全部子文件作为选取粒度;所述扩容节点为系统扩容时在所述分布式数据库系统中预先增设的分片节点。
[0034]可选地,所述管理服务器按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件,具体为:
[0035]根据各个分片节点的指定指标值,确定需要迁移文件的至少一个分片节点,以及所述至少一个分片节点对应的待迁移数据量;其中,所述指定指标值用于表征存储空间使用情况;
[0036]针对所述至少一个分片节点中的每一节点,按照预定的文件选取规则,从该节点所存储的子文件中,选取与该节点对应的待迁移数据量相匹配的独立子文件和/或关联子文件,作为该节点的待迁移文件;
[0037]其中,所述独立子文件为与其他子文件不存在关联关系的子文件。
[0038]可选地,所述管理服务器按照预定的文件选取规则,从该节点所存储的子文件中,选取与该节点对应的待迁移数据量相匹配的独立子文件和/或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对分布式数据库系统的数据处理方法,其特征在于,应用于分布式数据库系统中的管理服务器;所述分布式数据库系统还包括多个分片节点;所述方法包括:获取各个分片节点的文件信息;其中,每一分片节点的文件信息至少用于指示该分片节点所存储子文件中的关联子文件,所述关联子文件为属于不同文件但存在关联关系的多个子文件;按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件;其中,所述文件选取规则包括:针对所述关联子文件,在文件选取时,以所述关联子文件所包含全部子文件作为选取粒度;将所述待迁移文件迁移至扩容节点;其中,所述扩容节点为系统扩容时在所述分布式数据库系统中预先增设的分片节点。2.根据权利要求1所述的方法,其特征在于,所述按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件,包括:根据各个分片节点的指定指标值,确定需要迁移文件的至少一个分片节点,以及所述至少一个分片节点对应的待迁移数据量;其中,所述指定指标值用于表征存储空间使用情况;针对所述至少一个分片节点中的每一节点,按照预定的文件选取规则,从该节点所存储的子文件中,选取与该分片节点对应的待迁移数据量相匹配的独立子文件和/或关联子文件,作为该节点的待迁移文件;其中,所述独立子文件为与其他子文件不存在关联关系的子文件。3.根据权利要求2所述的方法,其特征在于,所述按照预定的文件选取规则,从该节点所存储的子文件中,选取与该节点对应的待迁移数据量相匹配的独立子文件和/或关联子文件,作为该节点的待迁移文件,包括:确定该节点的文件信息所指示的关联子文件的第一数据量,以及该分片节点中独立子文件的第二数据量;按照预定的文件选取规则,基于所述第一数据量和所述第二数据量,从该节点所存储的子文件中,选取与该节点对应的待迁移数据量相匹配的独立子文件和/或关联子文件,作为该节点的待迁移文件。4.根据权利要求1所述的方法,其特征在于,所述将所述待迁移文件迁移至扩容节点,包括:向所述待迁移文件所属的分片节点,下发针对所述待迁移文件的迁移指令,以使接收所述迁移指令的分片节点以子文件为迁移粒度,将所述待迁移文件,向扩容节点进行迁移。5.根据权利要求1

4任一项所述的方法,其特征在于,每一分片节点的文件信息所指示的关联子文件的确定方式包括:确定各个目标文件中,存在关联关系的关联文件,所述目标文件为该分片节点中所存储子文件属于的文件;利用所述关联文件所包含目标文件的、位于该分片节点中的子文件,确定该分片节点中的关联子文件。6.根据权利要求5所述的方法,其特征在于,所述确定各个目标文件中,存在关联关系的关联文件,包括:
获取用户给定的关联文件声明信息;基于所述关联文件声明信息,识别各个目标文件中,存在关联关系的关联文件。7.根据权利要求5所述的方法,其特征在于,所述利用所述关联文件所包含目标文件的、位于该分片节点中的子文件,确定该分片节点中的关联子文件,包括:确定该分片节点所存储的、属于各个指定文件的子文件中,符合预定匹配规则的子文件,作为关联子文件;其中,所述指定文件为所述关联文件所包含的目标文件,所述预定匹配规则包括:具有相同子文件标识,或者,存在相匹配的列内容。8.根据权利要求7所述的方法,其特征在于,所述确定该分片节点所存储的、属于各个指定文件的子文件中,符合预定匹配规则的子文件,作为关联子文件之前,所述确定方式还包括:检测该分片节点所存储的、属于每一指定文件的子文件的数量;若检测到的数量均为1,将属于各个指定文件的子文件,确定为关联子文件;若检测到的数量均大于1,则执行所述确定该分片节点所存储的、属于各个指定文件的子文件中,符合预定匹配规则的子文件,作为关联子文件的步骤。9.一种分布式数据库系统,其特征在于,包括:管理服务器和多个分片节点;每一分片节点,用于确定该分片节点的文件信息;向所述管理服务器上报该分片节点的文件信息;其中,该分片节点的文件存信息至少用于指示该分片节点所存储子文件中的关联子文件,所述关联子文件为属于不同文件但存在关联关系的多个子文件;所述管理服务器,用于获取各个分片节点的文件信息;按照预定的文件选取规则,基于所获取的文件信息,从至少一个分片节点所包括的子文件中,选取待迁移文件;将所述待迁移文件迁移至扩容节点;其中,所述文件选取规则包括:针对所述关联子文件,在文件选取时,以所述关联子文件所包含全部子文件作为选取粒度;所述扩容节点为系统扩容时在所述分布式数据库系统中预先增设的分片...

【专利技术属性】
技术研发人员:王天宇
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1