大数据处理中的任务优化方法和装置制造方法及图纸

技术编号:13781461 阅读:87 留言:0更新日期:2016-10-04 18:15
本发明专利技术公开了一种大数据处理中的任务优化方法和装置,包括:分析多个任务的数据处理逻辑;根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。减少了数据仓库中需要执行的计算任务数量,节约了计算资源,有助于提高数据仓库的处理效率。

【技术实现步骤摘要】

本专利技术属于计算机领域,具体地说,涉及一种大数据处理中的任务优化方法和装置
技术介绍
随着互联网的快速发展,很多互联网公司都已积累了TB量级的数据。数据仓库每天都在接收来自不同生态的数据,例如来自手机、智能电视、视频网站的用户数据记录等,做为大数据资源的一部分。数据从数据仓库的入口机进入数据仓库以及在数据仓库内部进行分层,都需要进行数据处理,每次数据处理过程都是多个任务的集合,每个任务都具有内在的处理逻辑,例如任务1是将A表中的部分字段的数据读取再写入到B表。有时,当很多数据工程师都需要某些数据时,不同的数据工程师利用现有数据获取到所需要数据方法路径可能就会不同,此时就会出现很多重复的任务,或者虽然并不重复,但目的是相同的任务。有时,有些任务对表的某些字段的更新处理较慢,导致后续可利用其他字段进行处理的任务也需要等待该表更新完成而无法继续向下处理,导致任务处理的时间变慢。这些问题都是由于对任务的内在处理逻辑分析不到位而造成的,导致了很多计算资源的浪费,影响数据仓库的处理速度。
技术实现思路
有鉴于此,本专利技术实施例提供了一种大数据处理中的任务优化方法和装置,用以解决现有技术中由于对任务的内在处理逻辑分析不到位而导致浪费计算资源的技术问题。为了解决上述技术问题,本专利技术公开了一种大数据处理中的任务优化方
法,包括:分析多个任务的数据处理逻辑;根据多个任务的数据处理逻辑确定多个任务之间的数据关系;对数据关系进行分析,确定是否将多个任务合并为一个任务或者将多个任务中的一个任务拆分成多个任务。为了解决上述技术问题,本专利技术还公开了一种大数据处理中的任务优化装置,包括:分析模块,用于分析多个任务的数据处理逻辑;确定模块,用于根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;处理模块,用于对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。与现有技术相比,本专利技术实施例提供的大数据处理中的任务优化方法和装置,通过对数据仓库中多个任务的数据处理逻辑进行分析,得到任务之间的数据关系,根据该数据关系确定是否对任务进行合并或者拆分,提高数据仓库的任务执行效率,有助于对数据仓库计算资源的合理利用。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种大数据处理中的任务优化方法的流程图;图2是本专利技术实施例提供的一种大数据处理中的任务优化方法的流程图;图3是本专利技术实施例提供的一种大数据处理中的任务优化方法的流程图;图4是本专利技术实施例提供的一种大数据处理中的任务优化装置的框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本发
明实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例中,针对数据仓库中的计算任务进行分析,分析每个任务的数据处理逻辑,通过数据处理逻辑来找到各个任务之间的逻辑关系以及数据依赖关系,对各个任务之间产生的中间数据以及任务的执行情况进行分析,找到可以对现有任务进行优化的点,对现有任务进行适当的合并和拆分,从而节省数据仓库的计算资源并提高任务的执行效率。下面分别对本专利技术实施例提供的多种任务优化方法分别进行说明。图1是本专利技术实施例提供的一种大数据处理中的任务优化方法,适用服务器,该方法包括以下步骤。S10,分析多个任务的数据处理逻辑。数据处理逻辑包括处理对象和计算方法。处理对象包括源数据、目标数据等,例如任务T01是从表A读取三个字段的数据并写入表B。计算方法是指利用源数据生成目标数据的方法,如果是直接从表A读取数据并写入表B则不存在计算方法,而如果对从表A读取的数据进行计算之后将结果写入表B,在该任务存在表A与表B之间的计算方法。S11,根据多个任务的数据处理逻辑确定多个任务之间的数据关系。数据关系包括任务之间的中间数据以及数据依赖关系。例如,任务T01从表A读取三个字段的数据并写入表B,任务T02对表B中的数据进行筛选,筛选出满足预设条件的数据并写入表C,那么,表B就被视为任务T01和任务T02的中间数据。数据依赖关系是指在后执行的任务需要依赖由在前执行的任务输出的数据。任务T01从表A读取第一字段和第二字段的数据并直接写入表B,从表A读取第三字段和第四字段的数据,对第三字段和第四字段的数据进行预测分析,将预测结果写入表B;任务T02从表B读取第一字段和第二字段的数据进行筛选,将筛选结果写入表C;任务T03从表B读取预测结果,对预测结果进行评估,将评估结果写入表D。那么,任务T02和任务T03就依赖
于任务T01的输出数据,任务T02和任务T03分别与任务T01具有数据依赖关系。S12,对数据关系进行分析,确定是否将多个任务合并为一个任务或者将多个任务中的一个任务拆分成多个任务。分析是否存在不会被使用的中间数据或者多个任务中在先执行的任务是否会影响在后执行的任务的执行效率。如果存在不会被使用的中间数据,则可以将多个任务进行合并,从而减少执行任务的数量,节省数据仓库的计算资源。如果在先执行的任务影响在后执行的任务的执行效率,则将该在先执行的任务按照数据依赖关系拆分成多个任务,将拆分后的多个任务中的一个任务的输出数据做为该在后执行的的任务的输入数据,使该在后执行的任务能够更快的获得其所依赖的数据从而完成执行,提高该在后执行的任务的执行效率。下面首先对数据仓库中将多个任务进行合并的情形进行说明。图2是本专利技术实施例提供的一种大数据处理中的任务优化方法,适用服务器,该方法包括以下步骤。S20,分析多个任务的数据处理逻辑。数据处理逻辑包括处理对象和计算方法。处理对象包括源数据、目标数据等,例如任务T01是从表A读取三个字段的数据并写入表B。计算方法是指利用源数据生成目标数据的方法,如果是直接从表A读取数据并写入表B则不存在计算方法,而如果对从表A读取的数据进行计算之后将结果写入表B,在该任务存在表A与表B之间的计算方法。S21,根据多个任务的数据处理逻辑确定多个任务之间产生的中间数据。从多个任务的数据处理逻辑中,找出多个任务的之间的逻辑关系。例如,任务T01从表A读取三个字段的数据并写入表B,任务T02对表B中的三个字段的数据进行筛选,筛选出满足预设条件的数据并写入表C,任务T03读取表C的数据并添加到表D中。可以看出任务T01至T03是按照彼此之间的逻辑关系依次进行的。找到多个任务之间的逻辑关系后,就可以确定各个任务之间都产生了哪些中间数据,上例中的表B和表C即可以被确定为中间数据。不同的数据工程师对得到目标数据而设置的计算方式会有所不同,有时还会根据其所负责的业务的实际需求来得到一些中间数据供进行其他计算使用。因此,需要进一步判断这些中间数据会被使用,也就是判断这些中间数本文档来自技高网
...

【技术保护点】
一种大数据处理中的任务优化方法,其特征在于,包括:分析多个任务的数据处理逻辑;根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。

【技术特征摘要】
1.一种大数据处理中的任务优化方法,其特征在于,包括:分析多个任务的数据处理逻辑;根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系;对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务或者将所述多个任务中的一个任务拆分成多个任务。2.根据权利要求1所述的方法,其特征在于,所述根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系包括:根据所述多个任务的数据处理逻辑确定多个任务之间产生的中间数据;所述对所述数据关系进行分析,确定是否将所述多个任务合并为一个任务包括:分析所述中间数据的使用状态以确定所述中间数据是否需要继续被保存;当所述中间数据不需要被保存时,根据所述数据处理逻辑将所述多个任务合并为一个任务。3.根据权利要求2所述的方法,其特征在于,所述分析所述中间数据的使用状态以确定所述中间数据是否需要继续被保存包括:根据业务需求分析所述中间数据是否在业务中被使用;当所述中间数据在业务中不被使用时,确定所述中间数据不需要继续被保存。4.根据权利要求2所述的方法,其特征在于,所述分析所述中间数据的使用状态以确定所述中间数据是否需要继续被保存包括:统计所述中间数据的未被使用的累积时长,当所述累积时长达到预设门限时,标记所述中间数据为不被使用的数据;当所述中间数据被标记为不被使用的数据的次数大于或等于预设门限时,确定所述中间数据不需要继续被保存。5.根据权利要求2所述的方法,其特征在于,所述对所述数据关系进
\t行分析,确定是否将所述多个任务合并为一个任务还包括:根据数据处理逻辑判断是否同时存在多个能够产生相同中间数据的任务;当同时存在多个能够产生相同中间数据的任务时,将所述多个能够产生相同中间数据的任务合并为一个任务。6.根据权利要求1所述的方法,其特征在于,所述根据所述多个任务的数据处理逻辑确定多个任务之间的数据关系包括:根据所述多个任务的数据处理逻辑确定多个任务之间的数据依赖关系;所述对所述数据关系进行分析,确定是否将所述多个任务中的一个任务拆分成多个任务包括:根据所述数据依赖关系,判断在所述多个任务中先执行的任务是否影响到后执行的任务的执行效率;当判断先执行的任务影响到后执行的任务的执行效率时,根据所述数据依赖关系将所述先执行的任务拆分为多个任务,并将所述拆分...

【专利技术属性】
技术研发人员:刘宏斌国铁龙向滔
申请(专利权)人:乐视控股北京有限公司乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1