数据处理的方法及装置制造方法及图纸

技术编号:32469608 阅读:22 留言:0更新日期:2022-03-02 09:29
本申请公开了一种数据处理的方法及装置,用以解决分析耗时长、效率低的问题。主节点在选择执行各个任务的节点时,既结合节点的磁盘的数据分布情况,还结合各个节点缓存中的数据分布情况,来确定执行各个任务的节点。执行任务的节点复用缓存中的数据,从而降低从磁盘读取数据导致的IO开销,并且从缓存读取数据的时延小于从磁盘读取数据的时延,缩短节点执行任务过程中读取数据的耗时,进而提高数据分析效率。另外,缓存数据的利用率较高,防止重复的从磁盘读取数据以及由于频繁的更新读取的数据导致的缓存空间不足,而导致的数据落盘行为。而导致的数据落盘行为。而导致的数据落盘行为。

【技术实现步骤摘要】
数据处理的方法及装置


[0001]本申请涉及信息
,尤其涉及数据处理的方法及装置。

技术介绍

[0002]大数据分析是通过海量数据分析,挖掘数据的内在关联,为产业提供分析依据。比如,通过分布式并行、并发处理实现海量数据的分析。大数据分析任务需要处理该任务的所有相关数据,数据量庞大且耗时长,因此分析系统在接收任务后,不会直接执行,而是解析任务内容制定一个执行计划保障大数据的分析性能,而非简单直接读取数据处理。
[0003]通过任务的关联数据在磁盘的分布情况确定任务的执行计划,但是,由于系统存储的数据量庞大,获取关联数据在磁盘的分布情况所占用的输入输出(input/output,I/O)开销大且影响正常业务处理过程,分析过程耗时长、效率低,无法满足大数据分析效率要求。因此,如何提供一种高效的数据处理方法成为亟待解决的技术问题。

技术实现思路

[0004]本申请提供一种数据处理的方法及装置,用以解决分析耗时长、效率低的问题。
[0005]第一方面,提供一种数据处理的方法,该方法可以由大数据分析系统中的主节点来实现本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:获取第一任务,所述第一任务为第一作业分解获得的多个任务中任意一个,所述第一作业为大数据分析中一个完整任务;按照预设规则选择执行所述第一任务的第一节点,所述预设规则用于指示节点中可复用的数据和所述第一任务待处理的数据的关联关系;向所述第一节点发送所述第一任务。2.根据权利要求1所述的方法,其特征在于,按照预设规则选择执行所述第一任务的第一节点,包括:根据所述节点缓存中数据与所述第一任务待处理的数据关联的可复用的数据选择所述第一节点。3.根据权利要求1所述的方法,其特征在于,所述按照预设规则选择执行所述第一任务的第一节点,包括:根据所述多个节点中数据分布情况和所述第一任务待处理的数据的关联关系筛选第二节点集合,所述第二节点集合中包括至少一个节点;根据所述第二节点集合中节点执行所述第一任务的计算开销在所述第二节点集合中选择一个节点作为所述第一节点。4.根据权利要求1或3所述的方法,其特征在于,在所述获取第一任务之前,所述方法还包括:获取统计数据,所述统计数据包括第一数据和第二数据,所述第一数据用于指示节点的磁盘的数据分布情况,第二数据用于指示节点的缓存的数据分布情况;则根据所述多个节点中数据分布情况和所述第一任务待处理的数据的关联关系筛选第二节点集合,包括:根据所述统计数据与所述第一任务待处理的数据的关联关系筛选出所述第二节点集合。5.根据权利要求4所述的方法,其特征在于,所述第二数据包括第二作业处理的数据在缓存的分布情况,所述第二作业包括已经完成执行的作业;所述第二节点集合包括用于执行所述第二作业的任务的节点,且执行所述第二作业的任务所处理的数据包括所述可复用的数据。6.根据权利要求5所述的方法,其特征在于,所述第二数据包括第三作业处理的数据在缓存的分布情况,所述第三作业包括正在执行的作业;所述第二节点集合包括用于执行所述第三作业的任务的节点,且执行所述第三作业的任务所处理的数据包括所述可复用的数据。7.一种数据处理的装置,其特征在于,所述装置包括:获取单元,用于获...

【专利技术属性】
技术研发人员:龚陈继杨仲凯崔宝龙翁凯玲
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1