跨集群数据处理方法及相关设备技术

技术编号:38093619 阅读:7 留言:0更新日期:2023-07-06 09:06
本申请提出一种跨集群数据处理方法、装置、电子设备及存储介质,跨集群数据处理方法包括:解析接收到的数据处理指令获得待处理数据表的名称;依据待处理数据表的名称查询待处理数据表所在的集群以作为目标集群,目标集群的数量至少为两个;依据每个目标集群中待处理数据表的数据量对目标集群进行分类,以获得一个计算集群和至少一个发送集群;将发送集群中的待处理数据表传输至计算集群以获得全量数据;响应于获取所述全量数据,依据数据处理指令对全量数据进行数据处理操作以获得数据处理结果。该方法可以在跨集群数据处理过程中选择数据量较少的集群处理数据,从而规避大量数据的跨集群迁移,能够提升跨集群数据处理的效率。率。率。

【技术实现步骤摘要】
跨集群数据处理方法及相关设备


[0001]本申请涉及数据处理
,尤其涉及一种跨集群数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的发展,企业的业务数据量也越来越大,且业内用于存储及处理数据的集群架构越来越复杂。企业的数据集群可能有多个,且每个集群由多个服务器组成,在跨集群或跨服务器的数据处理场景下,两个集群之间或服务器之间的通信速率将对数据处理任务的效率产生较大的影响。
[0003]目前,在诸如保险数据、医疗数据等业务数据的迁移过程中,会出现部分数据在新集群/新服务器,另一部分数据在旧集群/旧服务器的现象,此时数据处理任务涉及多个集群或多个服务器。通常随机指定任意一个服务器以进行数据处理任务,这种方式会造成数据处理过程中大量数据的迁移,对于服务器或集群之间的通信资源占用率较高,导致数据处理任务效率低下。

技术实现思路

[0004]鉴于以上内容,有必要提供一种跨集群数据处理方法及相关设备,以解决如何提高数据处理的效率这一技术问题,其中,相关设备包括跨集群数据处理装置、电子设备及存储介质。
[0005]本申请实施例提供一种跨集群数据处理方法,所述方法包括:
[0006]解析接收到的数据处理指令获得待处理数据表的名称;
[0007]依据所述待处理数据表的名称查询所述待处理数据表所在的集群以作为目标集群,所述目标集群的数量至少为两个;
[0008]依据每个所述目标集群中待处理数据表的数据量对所述目标集群进行分类,以获得一个计算集群和至少一个发送集群;
[0009]将所述发送集群中的待处理数据表传输至所述计算集群以获得全量数据;
[0010]响应于获取所述全量数据,依据所述数据处理指令对所述全量数据进行数据处理操作以获得数据处理结果。
[0011]在一些实施例中,所述解析接收到的数据处理指令获得待处理数据表的名称,包括:
[0012]对接收到的数据处理指令进行分词操作获得多个代码词汇;
[0013]依据预设的语法分析器解析所述代码词汇的语义以构建所述数据处理指令对应的语法树,所述语法树包含多个叶节点,每个所述叶节点用于记载一个所述代码词汇;
[0014]每个所述叶节点对应一个父节点,所述父节点用于记载与之对应的所述叶节点的类别,所述类别至少包括factor,将所有类别为factor的叶节点作为待处理数据表的名称。
[0015]在一些实施例中,所述依据所述待处理数据表的名称查询所述待处理数据表所在
的集群以作为目标集群,包括:
[0016]将待处理数据表的名称输入预设脚本以查询所述待处理数据表的元数据信息,所述元数据信息用于记载所述待处理数据表的存储路径,所述存储路径的数量至少为两个;
[0017]针对每个所述存储路径,查询所述存储路径对应的集群的名称,并将所述集群作为目标集群。
[0018]在一些实施例中,所述依据每个所述目标集群中待处理数据表的数据量对所述目标集群进行分类,包括:
[0019]查询每个所述目标集群中待处理数据表存储数据的数据量;
[0020]将数据量最大的所述目标集群标记为计算集群,并将其余所有目标集群标记为发送集群。
[0021]在一些实施例中,响应于获取每个所述目标集群的类别,所述方法还包括:
[0022]查询每个所述发送集群中待处理数据表的入库时间,所述入库时间指所述待处理数据表被存储于所述发送集群的时间;
[0023]依据所述入库时间由早至晚的顺序对所述发送集群进行排序,获得所述发送集群的次序。
[0024]在一些实施例中,所述将所述发送集群中的待处理数据表传输至所述计算集群以获得全量数据,包括:
[0025]依据预设的集群配置映射表查询所述计算集群的配置文件作为目标配置文件,并查询接收到的所述数据处理指令的集群对应的配置文件以作为预设的默认配置文件;
[0026]若所述目标配置文件与预设的默认配置文件相同,则将预设的标志变量赋值为1;
[0027]若所述目标配置文件与预设的默认配置文件不同,则将预设的标志变量赋值为0,并将所述预设的默认配置文件切换为所述目标配置文件;
[0028]将所述发送集群中的待处理数据表依据预设的通信协议封装为中继数据;
[0029]依据所述发送集群的次序将所述中继数据传输至所述目标配置文件中记载的所述数据处理指令运行的地址;
[0030]响应于接收到所述中继数据,解析所述中继数据以获得发送集群中的待处理数据表,对接收到的待处理数据表与所述计算集群中的待处理数据表进行聚合处理获得全量数据。
[0031]在一些实施例中,响应于获得所述数据处理结果,所述方法还包括:
[0032]查询所述预设的标志变量的值,若所述预设的标志变量的值为1,则不对所述预设的默认配置文件做任何操作;
[0033]若所述预设的标志变量为0,则将所述预设的默认配置文件回滚至获得所述数据处理结果之前的状态。
[0034]本申请实施例还提供一种跨集群数据处理装置,所述装置包括:
[0035]解析单元,用于解析接收到的数据处理指令获得待处理数据表的名称;
[0036]查询单元,依据所述待处理数据表的名称查询所述待处理数据表所在的集群以作为目标集群,所述目标集群的数量至少为两个;
[0037]分类单元,用于依据每个所述目标集群中待处理数据表的数据量对所述目标集群进行分类,以获得一个计算集群和至少一个发送集群;
[0038]传输单元,用于将所述发送集群中的待处理数据表传输至所述计算集群以获得全量数据;
[0039]数据处理单元,用于响应于获取所述全量数据,依据所述数据处理指令对所述全量数据进行数据处理操作以获得数据处理结果。
[0040]本申请实施例还提供一种电子设备,所述电子设备包括:
[0041]存储器,存储计算机可读指令;及
[0042]处理器,执行所述存储器中存储的计算机可读指令以实现所述跨集群数据处理方法。
[0043]本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述跨集群数据处理方法。
[0044]上述跨集群数据处理方法通过解析预设集群接收到的数据处理指令获得待处理数据表的名称,并通过待处理数据表的名称查询所述待处理数据表所在的服务器以作为目标集群,进一步依据目标集群中待处理数据表的数据量对所述目标集群进行分类,获得一个计算集群和至少一个发送集群,并将所述发送集群中的待处理数据表传输至所述计算集群以获得全量数据,并利用全量数据执行数据处理指令获得计算结果,从而确保在数据处理的过程中数据传输的数量较少,数据传输耗时维持较低水平,能够提升数据处理指令的运行效率。
附图说明
[0045]图1是本申请所涉及的一种跨集群数据处理方法的较佳实施例的流程图。...

【技术保护点】

【技术特征摘要】
1.一种跨集群数据处理方法,其特征在于,所述方法包括:解析接收到的数据处理指令获得待处理数据表的名称;依据所述待处理数据表的名称查询所述待处理数据表所在的集群以作为目标集群,所述目标集群的数量至少为两个;依据每个所述目标集群中待处理数据表的数据量对所述目标集群进行分类,以获得一个计算集群和至少一个发送集群;将所述发送集群中的待处理数据表传输至所述计算集群以获得全量数据;响应于获取所述全量数据,依据所述数据处理指令对所述全量数据进行数据处理操作以获得数据处理结果。2.如权利要求1所述的跨集群数据处理方法,其特征在于,所述解析接收到的数据处理指令获得待处理数据表的名称,包括:对接收到的数据处理指令进行分词操作获得多个代码词汇;依据预设的语法分析器解析所述代码词汇的语义以构建所述数据处理指令对应的语法树,所述语法树包含多个叶节点,每个所述叶节点用于记载一个所述代码词汇;每个所述叶节点对应一个父节点,所述父节点用于记载与之对应的所述叶节点的类别,所述类别至少包括factor,将所有类别为factor的叶节点作为待处理数据表的名称。3.如权利要求1所述的跨集群数据处理方法,其特征在于,所述依据所述待处理数据表的名称查询所述待处理数据表所在的集群以作为目标集群,包括:将待处理数据表的名称输入预设脚本以查询所述待处理数据表的元数据信息,所述元数据信息用于记载所述待处理数据表的存储路径,所述存储路径的数量至少为两个;针对每个所述存储路径,查询所述存储路径对应的集群的名称,并将所述集群作为目标集群。4.如权利要求1所述的跨集群数据处理方法,其特征在于,所述依据每个所述目标集群中待处理数据表的数据量对所述目标集群进行分类,包括:查询每个所述目标集群中待处理数据表存储数据的数据量;将数据量最大的所述目标集群标记为计算集群,并将其余所有目标集群标记为发送集群。5.如权利要求4所述的跨集群数据处理方法,其特征在于,响应于获取每个所述目标集群的类别,所述方法还包括:查询每个所述发送集群中待处理数据表的入库时间,所述入库时间指所述待处理数据表被存储于所述发送集群的时间;依据所述入库时间由早至晚的顺序对所述发送集群进行排序,获得所述发送集群的次序。6.如权利要求5所述的跨集群数据处理方法,其特征在于,所述将所述发送集群中...

【专利技术属性】
技术研发人员:李博张观成万书武
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1