【技术实现步骤摘要】
基于大数据平台的数据处理方法、设备和存储介质
[0001]本申请实施例涉及大数据平台
,尤其涉及一种基于大数据平台的数据处理方法、设备和存储介质。
技术介绍
[0002]在数字经济时代,数据已经成为新的生产资料,并从数据管理走向数据运营,大数据正发挥着越来越重要的作用。
[0003]大数据最初兴起之时,主流网络带宽只有100Mb,通过网络远程访问数据的速度太慢。为了解决数据快速访问的问题,提出了大数据存算融合的架构。在存算融合的架构中,将计算和存储耦合部署在同一个机器上,避免了输入/输出(input/output,IO)占用较大的资源开销。
[0004]随着IO优化、网络性能等的提高,网络带宽已经从100Mb增长到了10Gb的级别,各种高效的压缩算法和数据存储格式也进一步减少了IO数据量,大数据的瓶颈从IO变成了计算。因此,提出了大数据存算分离的架构。在存算分离的架构中,计算和存储解耦合,分别部署在不同的机器上,存储资源和计算资源可以分开调整。存算分离的架构可以让大数据集群充分利用存储资源和计算资源,系统拓展性强,拓展成本低,组网灵活,更符合云计算的特性。
[0005]但是,存算分离后数据的存储位置被拉到远端,数据需要从远端拉取,导致大数据平台的系统性能明显下降。
技术实现思路
[0006]本申请实施例提供一种基于大数据平台的数据处理方法、设备和存储介质,提升了大数据平台的系统性能。
[0007]第一方面,提供了一种基于大数据平台的数据处理方法,包括:确定目标任务 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据平台的数据处理方法,其特征在于,包括:确定目标任务的多个第一数据集,所述第一数据集为执行所述目标任务时远程读取的数据集;在所述多个第一数据集中确定热点数据集;确定大数据平台中的多个目标计算节点;将所述热点数据集存储至所述多个目标计算节点的内存中,并生成映射信息;所述映射信息用于指示所述热点数据集与所述多个目标计算节点的对应关系。2.根据权利要求1所述的方法,其特征在于,还包括:通过电子设备向用户显示所述映射信息。3.根据权利要求1所述的方法,其特征在于,还包括:通过电子设备获取用户输入的修改指令,所述修改指令用于修改所述映射信息所指示的所述热点数据集与所述多个目标计算节点的对应关系。4.根据权利要求1
‑
3中任一项所述的方法,其特征在于,还包括:根据所述映射信息将所述目标任务下发至所述多个目标计算节点。5.根据权利要求1
‑
4中任一项所述的方法,其特征在于,所述将所述热点数据集存储至所述多个目标计算节点的内存中,包括:获取文件划分等级;根据所述文件划分等级对应的预设文件大小对所述热点数据集进行划分,得到多个文件包;将所述多个文件包存储至所述多个目标计算节点的内存中。6.根据权利要求5所述的方法,其特征在于,所述获取文件划分等级,包括:获取第二时间段内所述大数据平台存储的文件分别在多个预设文件大小范围的占比;获取占比最大的预设文件大小范围对应的文件划分等级。7.根据权利要求5所述的方法,其特征在于,所述将所述多个文件包存储至所述多个目标计算节点的内存中,包括:采用三副本机制将所述多个文件包存储至所述多个目标计算节点的内存中。8.根据权利要求1
‑
7中任一项所述的方法,其特征在于,所述目标任务包括多个结构化查询语言SQL任务,所述确定目标任务的多个第一数据集,包括:获取第一时间段内的第一历史数据;所述第一历史数据用于指示所述目标任务中每个所述SQL任务对应的第一数据集;根据所述第一历史数据确定所述目标任务中每个所述SQL任务对应的第一数据集。9.根据权利要求8所述的方法,其特征在于,所述在所述多个第一数据集中确定热点数据集,包括:对于所述目标任务中每个所述SQL任务对应的每个所述第一数据集,根据输入/输出IO速率、所述SQL任务读取所述第一数据集的次数和所述第一数据集的大小,确定所述第一数据集相对于所述SQL任务的块热度;对于每个所述第一数据集,将所述第一数据集相对于所述目标任务中所有SQL任务的块热度的和,确定为所述第一数据集的文件热度;根据所述多个第一数据集分别对应的文件热度确定所述热点数据集。
10.根据权利要求9所述的方法,其特征在于,所述根据所述多个第一数据集分别对应的文件热度确定所述热点数据集,包括:将所述文件热度大于预设阈值的所述第一数据集确定为所述热点数据集。11.根据权利要求1
‑
10中任一项所述的方法,其特征在于,所述确定大数据平台中的多个目标计算节点,包括:获取所述大数据平台中计算节点的性能参数;根据所述计算节点的性能参数确定所述多个目标计算节点。12.根据权利要求11所述的方法,其特征在于,所述性能参数包括下列中的至少一项:中央处理器CPU使用率、CPU负载、系统空闲时间、内存占用率或输入/输出IO速率。13.根据权利要求1
‑
12中任一项所述的方法,其特征在于,所述确定目标任务的多个第一数据集之前,还包括:获取目标业务对应的多个结构化查询语言SQL任务;将所述多个SQL任务划分为多个所述目标任务;所述目标任务包括所述多个SQL任务中的部分SQL任务,且不同的目标任务包括的SQL任务不重叠。14.一种基于大数据平台的数据处理装置,其特征在于,包括:热点分析模块,用于确定目标任务的多个第一数据集,并在所述多个第一数据集中确定热点数据集;所述第一数据集为执行所述目标任务时远程读取的数据集;节点编...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。