【技术实现步骤摘要】
数据处理的方法及装置
[0001]本申请涉及信息
,尤其涉及数据处理的方法及装置。
技术介绍
[0002]大数据分析是通过海量数据分析,挖掘数据的内在关联,为产业提供分析依据。比如,通过分布式并行、并发处理实现海量数据的分析。大数据分析任务需要处理该任务的所有相关数据,数据量庞大且耗时长,因此分析系统在接收任务后,不会直接执行,而是解析任务内容制定一个执行计划保障大数据的分析性能,而非简单直接读取数据处理。
[0003]通过任务的关联数据在磁盘的分布情况确定任务的执行计划,但是,由于系统存储的数据量庞大,获取关联数据在磁盘的分布情况所占用的输入输出(input/output,I/O)开销大且影响正常业务处理过程,分析过程耗时长、效率低,无法满足大数据分析效率要求。因此,如何提供一种高效的数据处理方法成为亟待解决的技术问题。
技术实现思路
[0004]本申请提供一种数据处理的方法及装置,用以解决分析耗时长、效率低的问题。
[0005]第一方面,提供一种数据处理的方法,该方法可以由大数据分析 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理的方法,其特征在于,所述方法包括:获取第一任务,所述第一任务为第一作业分解获得的多个任务中任意一个,所述第一作业为大数据分析中一个完整任务;按照预设规则选择执行所述第一任务的第一节点,所述预设规则用于指示节点中可复用的数据和所述第一任务待处理的数据的关联关系;向所述第一节点发送所述第一任务。2.根据权利要求1所述的方法,其特征在于,按照预设规则选择执行所述第一任务的第一节点,包括:根据所述节点缓存中数据与所述第一任务待处理的数据关联的可复用的数据选择所述第一节点。3.根据权利要求1所述的方法,其特征在于,所述按照预设规则选择执行所述第一任务的第一节点,包括:根据所述多个节点中数据分布情况和所述第一任务待处理的数据的关联关系筛选第二节点集合,所述第二节点集合中包括至少一个节点;根据所述第二节点集合中节点执行所述第一任务的计算开销在所述第二节点集合中选择一个节点作为所述第一节点。4.根据权利要求1或3所述的方法,其特征在于,在所述获取第一任务之前,所述方法还包括:获取统计数据,所述统计数据包括第一数据和第二数据,所述第一数据用于指示节点的磁盘的数据分布情况,第二数据用于指示节点的缓存的数据分布情况;则根据所述多个节点中数据分布情况和所述第一任务待处理的数据的关联关系筛选第二节点集合,包括:根据所述统计数据与所述第一任务待处理的数据的关联关系筛选出所述第二节点集合。5.根据权利要求4所述的方法,其特征在于,所述第二数据包括第二作业处理的数据在缓存的分布情况,所述第二作业包括已经完成执行的作业;所述第二节点集合包括用于执行所述第二作业的任务的节点,且执行所述第二作业的任务所处理的数据包括所述可复用的数据。6.根据权利要求5所述的方法,其特征在于,所述第二数据包括第三作业处理的数据在缓存的分布情况,所述第三作业包括正在执行的作业;所述第二节点集合包括用于执行所述第三作业的任务的节点,且执行所述第三作业的任务所处理的数据包括所述可复用的数据。7.一种数据处理的装置,其特征在于,所述装置包括:获取单元,用于获...
【专利技术属性】
技术研发人员:龚陈继,杨仲凯,崔宝龙,翁凯玲,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。