数据处理的方法及装置制造方法及图纸

技术编号:32469608 阅读:11 留言:0更新日期:2022-03-02 09:29
本申请公开了一种数据处理的方法及装置,用以解决分析耗时长、效率低的问题。主节点在选择执行各个任务的节点时,既结合节点的磁盘的数据分布情况,还结合各个节点缓存中的数据分布情况,来确定执行各个任务的节点。执行任务的节点复用缓存中的数据,从而降低从磁盘读取数据导致的IO开销,并且从缓存读取数据的时延小于从磁盘读取数据的时延,缩短节点执行任务过程中读取数据的耗时,进而提高数据分析效率。另外,缓存数据的利用率较高,防止重复的从磁盘读取数据以及由于频繁的更新读取的数据导致的缓存空间不足,而导致的数据落盘行为。而导致的数据落盘行为。而导致的数据落盘行为。

【技术实现步骤摘要】
数据处理的方法及装置


[0001]本申请涉及信息
,尤其涉及数据处理的方法及装置。

技术介绍

[0002]大数据分析是通过海量数据分析,挖掘数据的内在关联,为产业提供分析依据。比如,通过分布式并行、并发处理实现海量数据的分析。大数据分析任务需要处理该任务的所有相关数据,数据量庞大且耗时长,因此分析系统在接收任务后,不会直接执行,而是解析任务内容制定一个执行计划保障大数据的分析性能,而非简单直接读取数据处理。
[0003]通过任务的关联数据在磁盘的分布情况确定任务的执行计划,但是,由于系统存储的数据量庞大,获取关联数据在磁盘的分布情况所占用的输入输出(input/output,I/O)开销大且影响正常业务处理过程,分析过程耗时长、效率低,无法满足大数据分析效率要求。因此,如何提供一种高效的数据处理方法成为亟待解决的技术问题。

技术实现思路

[0004]本申请提供一种数据处理的方法及装置,用以解决分析耗时长、效率低的问题。
[0005]第一方面,提供一种数据处理的方法,该方法可以由大数据分析系统中的主节点来实现,比如由主节点中的芯片或者芯片系统来实现。主节点也可以称为管理节点。以主节点执行数据处理的方法为例。主节点获取到第一作业的第一任务后,按照预设规则选择执行该第一任务的第一节点。该第一作业是大数据分析中的一个完整任务,可以由主节点从客户端接收该第一作业。第一作业中的第一任务是第一作业分解获得的多个任务中的任意一个任务。进一步,主节点选择到执行第一任务的第一节点后,向该第一节点发送该第一任务。本申请实施例中的预设规则用于指示节点中可复用的数据和第一任务待处理的数据的关联关系,比如,可复用的数据可以是节点中的缓存中的数据,由于节点执行任务时从磁盘中读取数据相比从缓存中读取数据较长,通过复用节点的缓存中的数据,结合缓存中的数据来选择节点,能够减少节点执行任务过程中读取数据的耗时,进而提高数据分析效率。另外,缓存数据的利用率较高,防止重复的从磁盘读取数据以及由于频繁的更新读取的数据导致的缓存空间不足,而导致的数据落盘行为。
[0006]在一种可能的实现方式中,主节点按照预设规则选择执行第一任务的第一节点时,可以通过如下方式来实现,根据节点缓存中的数据与第一任务待处理的数据关联的可复用数据来选择执行第一任务的第一节点。大数据分析系统中的各个节点,在执行其它任务过程中会从磁盘读取各个任务所需的数据到缓存中,某节点缓存中存在与第一任务待处理的数据存在关联关系的数据分片,比如,某节点的缓存中包括与第一任务所需的一个或多个数据分片,主节点为第一任务选择节点时,结合节点缓存中存在的第一任务所需的数据分片来选择第一节点。由于第一节点的缓存中存在第一任务所需的一个或者多个数据分片,从而第一节点执行第一任务时,无需再从磁盘读取缓存中已经存在的第一任务所需的一个或者多个数据分片,进而减少节点执行任务过程中读取数据的耗时,提升数据分析效
率。
[0007]在另一种可能的实现方式中,主节点按照预设规则选择执行第一任务的第一节点时,还可以通过如下方式实现:主节点可以先根据多个节点中数据分布情况和第一任务待处理的数据的关联关系筛选出第二节点集合,该第二节点集合包括至少一个节点。第二节点集合包括的至少一个节点的磁盘和/或缓存中存在与第一任务待处理的数据存在关联数据的可复用数据。进一步地,主节点根据所述第二节点集合中节点执行所述第一任务的计算开销在所述第二节点集合中选择一个节点作为所述第一节点。该实现方式中,先结合节点的磁盘和/或缓存中的数据分布情况筛选出一个或者多个节点,进而再结合筛选出的节点执行第一任务的计算开销来选择第一节点,减少计算开销所产生的耗时,提升数据分析效率。
[0008]在另一种可能的实现方式中,主节点根据所述第二节点集合中节点执行所述第一任务的计算开销在所述第二节点集合中选择一个节点作为所述第一节点时,可以利用如下提供的方式获取计算开销。
[0009]在另一种可能的实现方式中,当所述节点的缓存中存在可复用的数据时,利用下述公式计算获取所述节点的计算开销中包括的可复用的数据的读取开销。可复用的数据用于指示所述节点的缓存中存储的与所述第一任务待处理的数据相关联的数据。
[0010]所述节点的计算开销(可复用的数据的读取开销)=第一任务待处理的数据的大小/缓存读取速率。
[0011]在另一种可能的实现方式中,当所述节点的磁盘中存在与所述第一任务关联的数据时,利用下述公式获取所述节点的计算开销中包括的磁盘中存在与所述第一任务关联的数据的读取开销。
[0012]所述节点的计算开销(磁盘中存在与所述第一任务关联的数据的读取开销)=第一任务待处理的数据的大小/磁盘读取速率。
[0013]进一步地,主节点在获取节点的计算开销后,选择节点的计算开销最小的节点作为第一节点。
[0014]在另一种可能的实现方式中,主节点可以在获取第一任务之前,获取统计数据,所述统计数据包括第一数据和第二数据,第一数据用于指示节点的磁盘的数据分布情况,第二数据用于指示节点的缓存的数据分布情况。进一步地,在根据所述多个节点中数据分布情况和所述第一任务待处理的数据的关联关系筛选第二节点集合时,可以根据所述统计数据与所述第一任务待处理的数据的关联关系筛选出所述第二节点集合。在确定执行各个任务的节点时,采用的方式是既结合节点的磁盘的数据分布情况,还结合各个节点缓存中的数据分布情况,来确定执行各个任务的节点,由于从磁盘读取数据的开销大于从缓存读取数据的开销,因此,通过上述实现方式,能够降低从磁盘读取数据时导致的IO开销。
[0015]在另一种可能的实现方式中,第二数据包括第二作业处理的数据在缓存的分布情况,第二作业包括已经完成执行的作业;第二节点集合中包括的节点能够用于执行第二作业的任务,且第二节点集合中包括的节点所执行的第二作业的任务所使用的数据与第一任务待分析数据存在关联关系。换句话说,第二节点集合包括用于执行第二作业的任务的节点且执行第二作业的任务所处理的数据包括可复用的数据。上述方式中,从第二节点集合中确定第一节点,而第二节点集合中的各个节点均用于执行第二作业的任务,第一节点也
用于执行第二作业中的某个任务。另外,第一节点所执行第二作业的任务所使用的数据,也是第一任务待分析数据所需要的部分数据或者全部数据,从而主节点将第一节点作为执行第一任务的节点,进而第一节点在执行第一任务时,第一节点的缓存中已经包括第一节点的待处理数据所需的部分或者全部数据,进而复用缓存中包括数据,可以减少节点再次从磁盘读取数据,提高任务的执行效率,并且降低IO接口的传输压力。
[0016]在另一种可能的实现方式中,所述第二数据包括第三作业处理的数据在缓存的分布情况,所述第三作业包括正在执行的作业;所述第二节点集合包括用于执行所述第三作业的任务的节点,且执行所述第三作业的任务所处理的数据包括所述可复用的数据。上述方式中,从第二节点集合中确定第一节点,而第二节点集合中的各个节点均用于执行第三作业的任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:获取第一任务,所述第一任务为第一作业分解获得的多个任务中任意一个,所述第一作业为大数据分析中一个完整任务;按照预设规则选择执行所述第一任务的第一节点,所述预设规则用于指示节点中可复用的数据和所述第一任务待处理的数据的关联关系;向所述第一节点发送所述第一任务。2.根据权利要求1所述的方法,其特征在于,按照预设规则选择执行所述第一任务的第一节点,包括:根据所述节点缓存中数据与所述第一任务待处理的数据关联的可复用的数据选择所述第一节点。3.根据权利要求1所述的方法,其特征在于,所述按照预设规则选择执行所述第一任务的第一节点,包括:根据所述多个节点中数据分布情况和所述第一任务待处理的数据的关联关系筛选第二节点集合,所述第二节点集合中包括至少一个节点;根据所述第二节点集合中节点执行所述第一任务的计算开销在所述第二节点集合中选择一个节点作为所述第一节点。4.根据权利要求1或3所述的方法,其特征在于,在所述获取第一任务之前,所述方法还包括:获取统计数据,所述统计数据包括第一数据和第二数据,所述第一数据用于指示节点的磁盘的数据分布情况,第二数据用于指示节点的缓存的数据分布情况;则根据所述多个节点中数据分布情况和所述第一任务待处理的数据的关联关系筛选第二节点集合,包括:根据所述统计数据与所述第一任务待处理的数据的关联关系筛选出所述第二节点集合。5.根据权利要求4所述的方法,其特征在于,所述第二数据包括第二作业处理的数据在缓存的分布情况,所述第二作业包括已经完成执行的作业;所述第二节点集合包括用于执行所述第二作业的任务的节点,且执行所述第二作业的任务所处理的数据包括所述可复用的数据。6.根据权利要求5所述的方法,其特征在于,所述第二数据包括第三作业处理的数据在缓存的分布情况,所述第三作业包括正在执行的作业;所述第二节点集合包括用于执行所述第三作业的任务的节点,且执行所述第三作业的任务所处理的数据包括所述可复用的数据。7.一种数据处理的装置,其特征在于,所述装置包括:获取单元,用于获...

【专利技术属性】
技术研发人员:龚陈继杨仲凯崔宝龙翁凯玲
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1