集群计算方法、装置及计算机可读存储介质制造方法及图纸

技术编号:20224617 阅读:26 留言:0更新日期:2019-01-28 22:38
本发明专利技术实施例涉及分布式数据处理技术领域,公开了一种集群计算方法、装置及计算机可读存储介质。该集群计算方法包括:监控计算任务的当前计算结构在集群上的计算状态;根据计算状态判断是否满足计算任务的计算结构的更新条件,若满足更新条件,则根据计算状态计算得到新的计算结构,并将计算任务的剩余数据切换至新的计算结构进行计算;其中,新的计算结构的计算效率大于当前计算结构的计算效率。本发明专利技术实施方式通过在计算任务的执行过程中动态调整计算结构,从而提高集群资源的利用效率以及计算任务的计算效率。

【技术实现步骤摘要】
集群计算方法、装置及计算机可读存储介质
本专利技术实施例涉及分布式数据处理
,特别涉及一种集群计算方法、装置及计算机可读存储介质。
技术介绍
伴随着信息技术的快速发展,人们产生和需要处理的数据量飞速增长,基于分布式集群计算的大数据技术越来越多地被应用到各个领域之中。其中SQL(StructuredQueryLanguage,结构化查询语言)作为一种普及度高、学习成本低的数据操作语言,被越来越多的大数据处理系统集成进来,用作计算逻辑构建的工具。在现有的分布式大数据计算系统中,一个流式或者批式的计算任务,最终都可以表示为一个可以用类似有向无环图(DirectedAcyclicGraph,简称DAG)的流程图表示的计算逻辑图,图中的每一个节点代表计算任务中的一个计算逻辑节点。实际计算时,节点之间以不同的连接方式进行数据传输,数据传输方式与所有的计算逻辑节点共同构成了分布式计算的计算结构。专利技术人发现现有技术中至少存在如下问题:对于一个计算任务而言,计算结构设定完成后,在该计算任务执行完毕或被取消之前,计算结构是不会改变的。但是在一个计算任务的运行过程中,计算任务的外部环境和内部状态并不是一成不变,最初预设置的计算结构不一定一直是最优的,可能造成计算资源利用的浪费。
技术实现思路
本专利技术实施方式的目的在于提供一种集群计算方法、装置及计算机可读存储介质,通过在计算任务的执行过程中动态调整计算结构,从而提高集群资源的利用效率以及计算任务的计算效率。为解决上述技术问题,本专利技术的实施方式提供了一种集群计算方法,包括:监控计算任务的当前计算结构在集群上的计算状态;根据所述计算状态判断是否满足所述计算任务的计算结构的更新条件,若满足所述更新条件,则根据所述计算状态计算得到新的计算结构,并将所述计算任务的剩余数据切换至所述新的计算结构进行计算;其中,所述新的计算结构的计算效率大于所述当前计算结构的计算效率。本专利技术的实施方式还提供了一种集群计算装置,包括:监控模块,用于监控计算任务的当前计算结构在集群上的计算状态;判断模块,用于根据所述计算状态判断是否满足所述计算任务的计算结构的更新条件;计算结构计算模块,用于在所述判断模块判断出满足所述更新条件时根据所述监控模块监控的所述计算状态计算得到新的计算结构;其中,所述新的计算结构的计算效率大于所述当前计算结构的计算效率;切换模块,用于将所述计算任务的剩余数据切换至所述新的计算结构进行计算。本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的集群计算方法。本专利技术实施方式相对于现有技术而言,通过监控计算任务的当前计算结构在集群上的计算状态,并判断是否满足计算任务的计算结构的更新条件,在满足更新条件时,根据计算状态计算得到新的计算结构,并将计算任务的剩余数据切换至新的计算结构进行计算,从而实现计算结构在运行过程中的动态调整,由于新的计算结构的计算效率大于当前计算结构的计算效率,所以可提高对集群资源的利用效率以及计算任务的计算效率。另外,所述计算任务的当前计算结构在集群上的计算状态包括:所述当前计算结构中的数据分布状态;所述根据所述计算状态判断是否满足所述计算任务的计算结构的更新条件具体包括:根据所述当前计算结构中的数据分布状态计算得到当前消耗评分,若所述当前消耗评分大于预设阈值,则判定满足所述更新条件。从而为计算结构是否需要更新提供了一种简单有效的判断方式。另外,根据所述计算状态计算得到新的计算结构,具体包括:根据所述计算状态获取所述计算任务对应的多个预设计算结构;分别计算每个所述预设计算结构的消耗评分,将计算得到的消耗评分低于所述预设阈值的其中一个计算结构作为新的计算结构。另外,将计算得到的消耗评分最小的一个计算结构作为新的计算结构。从而使得新的计算结构更有利于充分利用集群资源,提高计算效率。另外,所述根据所述计算状态获取所述计算任务对应的多个预设计算结构,具体包括:在所述计算任务的数据发生倾斜时,在所述计算结构中采用哈希数据传输策略;在所述计算任务的数据未发生倾斜时,在所述计算结构中采用平行数据传输策略。从而可以根据实际数据情况高效传输数据。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是根据本专利技术第一实施方式集群计算方法的流程图;图2是根据本专利技术第二实施方式集群计算装置的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。本专利技术的第一实施方式涉及一种集群计算方法,可应用于SQL等的集群的批式或者流式计算任务的处理,本实施方式对于集群的类型不作具体限制。该集群计算方法包括:监控计算任务的当前计算结构在集群上的计算状态,根据计算状态判断是否满足计算任务的计算结构的更新条件,若满足更新条件,则根据计算状态计算得到新的计算结构,并将计算任务的剩余数据切换至新的计算结构进行计算,其中,新的计算结构的计算效率大于当前计算结构的计算效率。从而实现计算任务运行过程中计算结构的动态调整,提高对资源的利用效率以及计算任务的计算效率。下面对本实施方式的集群计算方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。请参阅图1,本实施方式中的集群计算方法包括步骤101至步骤104。步骤101:监控计算任务的当前计算结构在集群上的计算状态。在实际应用中,在步骤101之前,集群计算方法一般还包括对计算任务的计算结构的初始化操作,在计算结构初始化时,可以监控集群的运行状态,包括但不限于数据流量、集群的CPU负载、内存负载以及磁盘状态等。然后获取集群的运行状态,结合计算任务的计算特点,计算出该计算任务的初始计算结构。具体地,一个集群的计算任务一般会被划分为多个步骤(亦可称为operator)去顺序执行,例如划分为operator-1、operator-2、operator-3...operator-m等的m个步骤顺序执行,每一个步骤(operator)被分布到多个计算分片(亦可称为partition)上进行计算,其中,每个operator的计算分片可以相同也可以不同。该计算任务的计算结构包括:划分出的operator结构以及前后operator的partition之间的数据传输规则。初始计算结构一般为根据计算任务即将开始执行前集群的运行状态以及计算任务的特点计算得到的最佳计算结构。本实施方式中,在计算任务执行过程中,亦实时或者周期性地监控计算任务的当前计算结构在集群上的计算状态。监控的对象不仅可包括上述集群的运行状态,亦可包括该计算任务的计算结构中的数据状态。举例而言,针对一个计算任务,该计算任务例如需要从kafka获取类似于“123,XYZ,1234124,2018-05-16,false”本文档来自技高网...

【技术保护点】
1.一种集群计算方法,其特征在于,包括:监控计算任务的当前计算结构在集群上的计算状态;根据所述计算状态判断是否满足所述计算任务的计算结构的更新条件,若满足所述更新条件,则根据所述计算状态计算得到新的计算结构,并将所述计算任务的剩余数据切换至所述新的计算结构进行计算;其中,所述新的计算结构的计算效率大于所述当前计算结构的计算效率。

【技术特征摘要】
1.一种集群计算方法,其特征在于,包括:监控计算任务的当前计算结构在集群上的计算状态;根据所述计算状态判断是否满足所述计算任务的计算结构的更新条件,若满足所述更新条件,则根据所述计算状态计算得到新的计算结构,并将所述计算任务的剩余数据切换至所述新的计算结构进行计算;其中,所述新的计算结构的计算效率大于所述当前计算结构的计算效率。2.根据权利要求1所述的集群计算方法,其特征在于,所述计算任务的当前计算结构在集群上的计算状态包括:所述当前计算结构中的数据分布状态;所述根据所述计算状态判断是否满足所述计算任务的计算结构的更新条件具体包括:根据所述当前计算结构中的数据分布状态计算得到当前消耗评分,若所述当前消耗评分大于预设阈值,则判定满足所述更新条件。3.根据权利要求2所述的集群计算方法,其特征在于,根据所述计算状态计算得到新的计算结构,具体包括:根据所述计算状态获取所述计算任务对应的多个预设计算结构;分别计算每个所述预设计算结构的消耗评分,将计算得到的消耗评分低于所述预设阈值的其中一个计算结构作为新的计算结构。4.根据权利要求3所述的集群计算方法,其特征在于,将计算得到的消耗评分最小的一个计算结构作为新的计算结构。5.根据权利要求3所述的集群计算方法,其特征在于,所述根据所述计算状态获取所述计算任务对应的多个预设计算结构,具体包括:在所述计算任务的数据发生倾斜时,在所述计算结构中采用哈希数据传输策略;在所述计算任务的数据未发生倾斜时,在所述计算结构中采用平行数据传输策略。6.一种集群计算装置,其特...

【专利技术属性】
技术研发人员:唐剑飞
申请(专利权)人:中兴飞流信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1