基于大数据平台的数据处理方法、设备和存储介质技术

技术编号:36734890 阅读:11 留言:0更新日期:2023-03-04 10:05
本申请实施例涉及大数据平台技术领域,提供一种基于大数据平台的数据处理方法、设备和存储介质。基于大数据平台的数据处理方法,包括:确定目标任务的多个第一数据集,第一数据集为执行目标任务时远程读取的数据集;在多个第一数据集中确定热点数据集;确定大数据平台中的多个目标计算节点;将热点数据集存储至多个目标计算节点的内存中,并生成映射信息;映射信息用于指示热点数据集与多个目标计算节点的对应关系。本申请实施例预先识别出计算引擎执行基于大数据的计算任务时对应的热点数据集,并将热点数据集预先存储在计算服务器的内存中,计算服务器可以直接从内存中读取数据,提升了大数据平台的系统性能。提升了大数据平台的系统性能。提升了大数据平台的系统性能。

【技术实现步骤摘要】
基于大数据平台的数据处理方法、设备和存储介质


[0001]本申请实施例涉及大数据平台
,尤其涉及一种基于大数据平台的数据处理方法、设备和存储介质。

技术介绍

[0002]在数字经济时代,数据已经成为新的生产资料,并从数据管理走向数据运营,大数据正发挥着越来越重要的作用。
[0003]大数据最初兴起之时,主流网络带宽只有100Mb,通过网络远程访问数据的速度太慢。为了解决数据快速访问的问题,提出了大数据存算融合的架构。在存算融合的架构中,将计算和存储耦合部署在同一个机器上,避免了输入/输出(input/output,IO)占用较大的资源开销。
[0004]随着IO优化、网络性能等的提高,网络带宽已经从100Mb增长到了10Gb的级别,各种高效的压缩算法和数据存储格式也进一步减少了IO数据量,大数据的瓶颈从IO变成了计算。因此,提出了大数据存算分离的架构。在存算分离的架构中,计算和存储解耦合,分别部署在不同的机器上,存储资源和计算资源可以分开调整。存算分离的架构可以让大数据集群充分利用存储资源和计算资源,系统拓展性强,拓展成本低,组网灵活,更符合云计算的特性。
[0005]但是,存算分离后数据的存储位置被拉到远端,数据需要从远端拉取,导致大数据平台的系统性能明显下降。

技术实现思路

[0006]本申请实施例提供一种基于大数据平台的数据处理方法、设备和存储介质,提升了大数据平台的系统性能。
[0007]第一方面,提供了一种基于大数据平台的数据处理方法,包括:确定目标任务的多个第一数据集,第一数据集为执行目标任务时远程读取的数据集;在多个第一数据集中确定热点数据集;确定大数据平台中的多个目标计算节点;将热点数据集存储至多个目标计算节点的内存中,并生成映射信息;映射信息用于指示热点数据集与多个目标计算节点的对应关系。
[0008]第一方面提供的基于大数据平台的数据处理方法,通过确定目标任务的多个第一数据集,可以在多个第一数据集中预先识别出计算引擎执行基于大数据的计算任务时对应的热点数据集,将热点数据集提前存储在计算服务器的内存中。这样,计算服务器执行基于大数据的计算任务时,可以直接从内存中读取数据,提高了数据本地化的幅度,避免了计算引擎需要的数据全部从远端拉取,充分利用了计算资源和存储资源,提升了大数据平台的系统性能。
[0009]一种可能的实现方式中,还包括:通过电子设备向用户显示映射信息。
[0010]一种可能的实现方式中,还包括:通过电子设备获取用户输入的修改指令,修改指
令用于修改映射信息所指示的热点数据集与多个目标计算节点的对应关系。
[0011]一种可能的实现方式中,还包括:根据映射信息将目标任务下发至多个目标计算节点。
[0012]一种可能的实现方式中,将热点数据集存储至多个目标计算节点的内存中,包括:获取文件划分等级;根据文件划分等级对应的预设文件大小对热点数据集进行划分,得到多个文件包;将多个文件包存储至多个目标计算节点的内存中。
[0013]一种可能的实现方式中,获取文件划分等级,包括:获取第二时间段内大数据平台存储的文件分别在多个预设文件大小范围的占比;获取占比最大的预设文件大小范围对应的文件划分等级。
[0014]一种可能的实现方式中,将多个文件包存储至多个目标计算节点的内存中,包括:采用三副本机制将多个文件包存储至多个目标计算节点的内存中。
[0015]一种可能的实现方式中,目标任务包括多个SQL任务,确定目标任务的多个第一数据集,包括:获取第一时间段内的第一历史数据;第一历史数据用于指示目标任务中每个SQL任务对应的第一数据集;根据第一历史数据确定目标任务中每个SQL任务对应的第一数据集。
[0016]一种可能的实现方式中,在多个第一数据集中确定热点数据集,包括:对于目标任务中每个SQL任务对应的每个第一数据集,根据IO速率、SQL任务读取第一数据集的次数和第一数据集的大小,确定第一数据集相对于SQL任务的块热度;对于每个第一数据集,将第一数据集相对于目标任务中所有SQL任务的块热度的和,确定为第一数据集的文件热度;根据多个第一数据集分别对应的文件热度确定热点数据集。
[0017]一种可能的实现方式中,根据多个第一数据集分别对应的文件热度确定热点数据集,包括:将文件热度大于预设阈值的第一数据集确定为热点数据集。
[0018]一种可能的实现方式中,确定大数据平台中的多个目标计算节点,包括:获取大数据平台中计算节点的性能参数;根据计算节点的性能参数确定多个目标计算节点。
[0019]一种可能的实现方式中,性能参数包括下列中的至少一项:CPU使用率、CPU负载、系统空闲时间、内存占用率或IO速率。
[0020]一种可能的实现方式中,确定目标任务的多个第一数据集之前,还包括:获取目标业务对应的多个SQL任务;将多个SQL任务划分为多个目标任务;目标任务包括多个SQL任务中的部分SQL任务,且不同的目标任务包括的SQL任务不重叠。
[0021]第二方面,提供了一种基于大数据平台的数据处理装置,包括:热点分析模块,用于确定目标任务的多个第一数据集,并在多个第一数据集中确定热点数据集;第一数据集为执行目标任务时远程读取的数据集;节点编排模块,用于确定大数据平台中的多个目标计算节点;预热模块,用于将热点数据集存储至多个目标计算节点的内存中,并生成映射信息;映射信息用于指示热点数据集与多个目标计算节点的对应关系。
[0022]一种可能的实现方式中,还包括缓存编排模块,缓存编排模块用于:通过电子设备向用户显示映射信息。
[0023]一种可能的实现方式中,还包括缓存编排模块,缓存编排模块用于:通过电子设备获取用户输入的修改指令,修改指令用于修改映射信息所指示的热点数据集与多个目标计算节点的对应关系。
[0024]一种可能的实现方式中,还包括任务下发模块,任务下发模块用于:根据映射信息将目标任务下发至多个目标计算节点。
[0025]一种可能的实现方式中,预热模块用于:获取文件划分等级;根据文件划分等级对应的预设文件大小对热点数据集进行划分,得到多个文件包;将多个文件包存储至多个目标计算节点的内存中。
[0026]一种可能的实现方式中,预热模块用于:获取第二时间段内大数据平台存储的文件分别在多个预设文件大小范围的占比;获取占比最大的预设文件大小范围对应的文件划分等级。
[0027]一种可能的实现方式中,预热模块用于:采用三副本机制将多个文件包存储至多个目标计算节点的内存中。
[0028]一种可能的实现方式中,目标任务包括多个SQL任务,热点分析模块用于:获取第一时间段内的第一历史数据;第一历史数据用于指示目标任务中每个SQL任务对应的第一数据集;根据第一历史数据确定目标任务中每个SQL任务对应的第一数据集。
[0029]一种可能的实现方式中,热点分析模块用于:对于目标任务中每个SQL任务对应的每个第一数据集,根据输入/输出本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据平台的数据处理方法,其特征在于,包括:确定目标任务的多个第一数据集,所述第一数据集为执行所述目标任务时远程读取的数据集;在所述多个第一数据集中确定热点数据集;确定大数据平台中的多个目标计算节点;将所述热点数据集存储至所述多个目标计算节点的内存中,并生成映射信息;所述映射信息用于指示所述热点数据集与所述多个目标计算节点的对应关系。2.根据权利要求1所述的方法,其特征在于,还包括:通过电子设备向用户显示所述映射信息。3.根据权利要求1所述的方法,其特征在于,还包括:通过电子设备获取用户输入的修改指令,所述修改指令用于修改所述映射信息所指示的所述热点数据集与所述多个目标计算节点的对应关系。4.根据权利要求1

3中任一项所述的方法,其特征在于,还包括:根据所述映射信息将所述目标任务下发至所述多个目标计算节点。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述将所述热点数据集存储至所述多个目标计算节点的内存中,包括:获取文件划分等级;根据所述文件划分等级对应的预设文件大小对所述热点数据集进行划分,得到多个文件包;将所述多个文件包存储至所述多个目标计算节点的内存中。6.根据权利要求5所述的方法,其特征在于,所述获取文件划分等级,包括:获取第二时间段内所述大数据平台存储的文件分别在多个预设文件大小范围的占比;获取占比最大的预设文件大小范围对应的文件划分等级。7.根据权利要求5所述的方法,其特征在于,所述将所述多个文件包存储至所述多个目标计算节点的内存中,包括:采用三副本机制将所述多个文件包存储至所述多个目标计算节点的内存中。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述目标任务包括多个结构化查询语言SQL任务,所述确定目标任务的多个第一数据集,包括:获取第一时间段内的第一历史数据;所述第一历史数据用于指示所述目标任务中每个所述SQL任务对应的第一数据集;根据所述第一历史数据确定所述目标任务中每个所述SQL任务对应的第一数据集。9.根据权利要求8所述的方法,其特征在于,所述在所述多个第一数据集中确定热点数据集,包括:对于所述目标任务中每个所述SQL任务对应的每个所述第一数据集,根据输入/输出IO速率、所述SQL任务读取所述第一数据集的次数和所述第一数据集的大小,确定所述第一数据集相对于所述SQL任务的块热度;对于每个所述第一数据集,将所述第一数据集相对于所述目标任务中所有SQL任务的块热度的和,确定为所述第一数据集的文件热度;根据所述多个第一数据集分别对应的文件热度确定所述热点数据集。
10.根据权利要求9所述的方法,其特征在于,所述根据所述多个第一数据集分别对应的文件热度确定所述热点数据集,包括:将所述文件热度大于预设阈值的所述第一数据集确定为所述热点数据集。11.根据权利要求1

10中任一项所述的方法,其特征在于,所述确定大数据平台中的多个目标计算节点,包括:获取所述大数据平台中计算节点的性能参数;根据所述计算节点的性能参数确定所述多个目标计算节点。12.根据权利要求11所述的方法,其特征在于,所述性能参数包括下列中的至少一项:中央处理器CPU使用率、CPU负载、系统空闲时间、内存占用率或输入/输出IO速率。13.根据权利要求1

12中任一项所述的方法,其特征在于,所述确定目标任务的多个第一数据集之前,还包括:获取目标业务对应的多个结构化查询语言SQL任务;将所述多个SQL任务划分为多个所述目标任务;所述目标任务包括所述多个SQL任务中的部分SQL任务,且不同的目标任务包括的SQL任务不重叠。14.一种基于大数据平台的数据处理装置,其特征在于,包括:热点分析模块,用于确定目标任务的多个第一数据集,并在所述多个第一数据集中确定热点数据集;所述第一数据集为执行所述目标任务时远程读取的数据集;节点编...

【专利技术属性】
技术研发人员:金航
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1