混合计算系统、数据处理方法及装置制造方法及图纸

技术编号:25479362 阅读:100 留言:0更新日期:2020-09-01 23:00
本发明专利技术实施例提供一种混合计算系统、数据处理方法及装置,该混合计算系统包括分类层和计算层,计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎;分类层用于根据计算任务对应的第一代码,获取计算任务的特征,并根据所述特征确定目标计算引擎;分类层还用于将第一代码转换为与目标计算引擎对应的第二代码,并将第二代码发送给目标计算引擎,以使目标计算引擎执行计算任务以对待处理数据进行处理;通过在混合计算系统中包括基于批处理的第一计算引擎和基于流处理的第二计算引擎,使得混合计算系统既适合执行批处理任务,也适合执行流处理任务,提高了混合计算系统的适用性。

【技术实现步骤摘要】
混合计算系统、数据处理方法及装置
本专利技术实施例涉及大数据
,尤其涉及一种混合计算系统、数据处理方法及装置。
技术介绍
目前,大数据处理框架包括基于批处理的计算框架和基于流处理的计算框架。其中,基于批处理的计算框架中,以ApacheHadoop生态圈中MapReduce最典型;基于流处理的计算框架中,最典型的是ApacheStorm和Samza。批处理适用于操作大容量历史数据集,并在计算过程完成后返回结果,其优势是大规模吞吐量,缺点为高延迟;而流处理无需针对整个数据集执行操作,而是对每个数据项执行操作,适用于对实时数据的处理,流处理可以做到低时延,但是数据不够准确。然而,各类计算任务对于吞吐量、时延和数据准确性的需求是不同的,目前基于批处理的计算框架和基于流处理的计算框架,均无法适用于各类计算任务。
技术实现思路
本专利技术实施例提供一种混合计算系统、数据处理方法及装置,能够适用于各类计算任务。第一方面,本专利技术实施例提供一种混合计算系统,包括:分类层和计算层,所述计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎;所述分类层用于根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎;所述分类层还用于将所述第一代码转换为与所述目标计算引擎对应的第二代码,并将所述第二代码发送给所述目标计算引擎,以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理。可选的,所述计算任务的特征包括下述中的至少一项:所述第一代码的时间复杂度、所述第一代码的空间复杂度、所述待处理数据的信息。可选的,所述第一计算引擎为ApacheSpark,所述第二计算引擎为ApacheFlink。可选的,所述混合计算系统还包括:存储层,用于分布式存储所述待处理数据。可选的,所述存储层包括分布式文件存储系统HDFS和分布式内存存储系统Alluxio。可选的,所述混合计算系统还包括:资源管理层,用于对所述第一计算引擎和所述第二计算引擎执行所述计算任务所需的资源进行管理和调度。可选的,所述资源管理层包括Yarn资源管理系统。可选的,所述混合计算系统还包括:输入层,用于获取所述计算任务对应的第一代码。第二方面,本专利技术实施例提供一种数据处理方法,包括:根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎,所述第一计算引擎用于批处理,所述第二计算引擎用于流处理;将所述第一代码转换为与所述目标计算引擎对应的第二代码,并将所述第二代码发送给所述目标计算引擎,以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理。可选的,所述计算任务的特征包括下述中的至少一项:所述第一代码的时间复杂度、所述第一代码的空间复杂度、所述待处理数据的信息。可选的,所述第一计算引擎为ApacheSpark,所述第二计算引擎为ApacheFlink。第三方面,本专利技术实施例提供一种数据处理装置,包括:选择模块,用于根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎,所述第一计算引擎用于批处理,所述第二计算引擎用于流处理;发送模块,用于将所述第一代码转换为与所述目标计算引擎对应的第二代码,并将所述第二代码发送给所述目标计算引擎,以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理。可选的,所述计算任务的特征包括下述中的至少一项:所述第一代码的时间复杂度、所述第一代码的空间复杂度、所述待处理数据的信息。可选的,所述第一计算引擎为ApacheSpark,所述第二计算引擎为ApacheFlink。第四方面,本专利技术实施例提供一种数据处理装置,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第二方面任一项所述的方法。第五方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第二方面任一项所述的方法。本专利技术实施例提供的混合计算系统、数据处理方法及装置,该混合计算系统包括分类层和计算层,所述计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎;所述分类层用于根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎;所述分类层还用于将所述第一代码转换为与所述目标计算引擎对应的第二代码,并将所述第二代码发送给所述目标计算引擎,以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理;通过在混合计算系统中包括基于批处理的第一计算引擎和基于流处理的第二计算引擎,使得混合计算系统既适合执行批处理任务,也适合执行流处理任务,提高了混合计算系统的适用性;根据计算任务的特征,自动将计算任务发送给适合执行该计算任务的目标计算引擎,保证了计算任务的各项需求得以满足。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的混合计算系统的结构示意图一;图2为本专利技术实施例提供的混合计算系统的结构示意图二;图3为图2所示的混合计算系统的数据处理过程示意图;图4为本专利技术实施例提供的数据处理方法的流程示意图;图5为本专利技术实施例提供的数据处理装置的结构示意图一;图6为本专利技术实施例提供的数据处理装置的结构示意图二。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本文档来自技高网...

【技术保护点】
1.一种混合计算系统,其特征在于,包括:分类层和计算层,所述计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎;/n所述分类层用于根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎;/n所述分类层还用于将所述第一代码转换为与所述目标计算引擎对应的第二代码,并将所述第二代码发送给所述目标计算引擎,以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理。/n

【技术特征摘要】
1.一种混合计算系统,其特征在于,包括:分类层和计算层,所述计算层包括基于批处理的第一计算引擎和基于流处理的第二计算引擎;
所述分类层用于根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎;
所述分类层还用于将所述第一代码转换为与所述目标计算引擎对应的第二代码,并将所述第二代码发送给所述目标计算引擎,以使所述目标计算引擎执行所述计算任务以对待处理数据进行处理。


2.根据权利要求1所述的混合计算系统,其特征在于,所述计算任务的特征包括下述中的至少一项:所述第一代码的时间复杂度、所述第一代码的空间复杂度、所述待处理数据的信息。


3.根据权利要求1所述的混合计算系统,其特征在于,所述第一计算引擎为ApacheSpark,所述第二计算引擎为ApacheFlink。


4.根据权利要求1至3任一项所述的混合计算系统,其特征在于,还包括:
存储层,用于分布式存储所述待处理数据。


5.根据权利要求4所述的混合计算系统,其特征在于,所述存储层包括分布式文件存储系统HDFS和分布式内存存储系统Alluxio。


6.根据权利要求1至3任一项所述的混合计算系统,其特征在于,还包括:
资源管理层,用于对所述第一计算引擎和所述第二计算引擎执行所述计算任务所需的资源进行管理和调度。


7.根据权利要求6所述的混合计算系统,其特征在于,所述资源管理层包括Yarn资源管理系统。


8.根据权利要求1至3任一项所述的混合计算系统,其特征在于,还包括:
输入层,用于获取所述计算任务对应的第一代码。


9.一种数据处理方法,其特征在于,包括:
根据计算任务对应的第一代码,获取所述计算任务的特征,并根据所述特征确定目标计算引擎,所述目标计算引擎为所述第一计算引擎或者所述第二计算引擎,所述第一计算引...

【专利技术属性】
技术研发人员:张煜霞
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1