当前位置: 首页 > 专利查询>山东大学专利>正文

混合计算框架生成、数据处理方法、装置及混合计算框架制造方法及图纸

技术编号:21453507 阅读:22 留言:0更新日期:2019-06-26 04:38
本发明专利技术公开了一种混合计算框架生成、数据处理方法、装置及混合计算框架,在底层大数据集群的基础上,通过集群资源的统一调度实现对计算框架的资源支撑,接收用户提交根据统一编程模型的编写的作业,识别作业类型并自动判断适用的计算框架,实现不同应用场景下批量数据、流数据等的统一处理,有效实现更好的通用性并更好的提升性能。

【技术实现步骤摘要】
混合计算框架生成、数据处理方法、装置及混合计算框架
本公开属于分布式计算的
,涉及一种混合计算框架生成、数据处理方法、装置及混合计算框架,尤其涉及一种基于作业类型识别的自适应混合计算框架生成方法及装置、一种数据处理方法及装置以及一种基于作业类型识别的自适应混合计算框架。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。随着信息技术的不断发展,数据处理面对的数据量快速增长,需挖掘数据种类越来越多,包括结构化数据、文本数据、图形数据、数据流等,离线处理、在线计算、图算法、迭代式算法。目前大数据处理基本可分为两个类型:(1)复杂的批量数据计算处理,通常时间跨度在数十分钟到数小时之间;(2)基于实时数据流的数据处理,通常的时间跨度在数百毫秒到数秒之间。两种处理类型目前都已有相对成熟的架构来处理,如利用MapReduce来进行批量数据处理,利用Storm来进行实时数据流的处理。根据处理类型,当前大数据处理框架一般分为批处理计算框架、流处理计算框架和混合处理计算框架三类,批处理计算框架以Hadoop等为代表,特点是时间和资源要求低;流处理计算框架以Storm、Samza等为代表,特点是实时性高但吞吐量低;混合处理计算框架包括Spark、Flink,能同时处理批处理和流处理工作负载,但各有侧重,Spark运行原理建立在内存批处理之上,本质上属于批处理计算框架,其流处理SparkStreaming属于微批处理,而Flink是可处理批处理任务的流处理框架,本质上属于流处理计算框架,将批处理当做具备有限边界的数据流处理。设计理念的不同使得每种计算框架都有其适用的最佳应用场景,如Hadoop适用于进行大规模静态数据的批量计算处理场景,但在面向低延迟和具有复杂数据关系(如多表关联查询)等问题时有很大的不适应性;Spark适用于迭代应用及交互式应用,在机器学习、交互式查询等应用场景具有优势;Storm适用于动态处理不断流入的小数据块,如实时日志处理、实时统计等场景,不同计算框架之间难以相互取代。大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算框架多半难以满足整个应用的需求,往往需要多种计算框架处理不同的场景。考虑到资源维护成本等一系列问题,为不同的计算框架搭建不同的集群显然是不现实的,因此需要考虑集群中不同计算框架的混合使用。当前已在混合计算框架方面进行了一定的研究,如研究集群资源的统一调度机制等,提升集群资源利用率。但对于作业层面的统一调度的研究较少,用户需要根据经验判断应用场景适用的计算框架并提交相应的应用程序,由于不同计算架构的编程模型、业务逻辑等均有很大差异,用户切换不同的分布式处理框架的成本很高,无法实现根据作业的混合计算架构的自适应匹配及运行。
技术实现思路
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种混合计算框架生成、数据处理方法、装置及混合计算框架,在底层大数据集群的基础上,通过集群资源的统一调度实现对计算框架的资源支撑,在此基础上,根据用户提交的根据统一编程模型的编写的作业,识别作业类型并自动判断适用的计算框架,实现不同应用场景下批量数据、流数据等的统一处理,以实现更好的通用性并更好的提升性能。根据本公开的一个或多个实施例的一个方面,提供一种基于作业类型识别的自适应混合计算框架生成方法。一种基于作业类型识别的自适应混合计算框架生成方法,该方法包括:接收用户客户端提交的作业,实时提取作业属性信息,识别作业类型;根据作业类型构建对应类型的计算框架选择模型,从集群计算框架池中具有的该类型作业对应的计算框架中,选择用户作业适用的计算框架。进一步地,在该方法中,所述用户客户端提交的作业为采用统一编程模型编写的作业。进一步地,在该方法中,所述实时提取作业属性信息,识别作业类型的具体步骤包括:从用户客户端提交的作业中提取作业属性信息,并进行标准化预处理;根据标准化预处理后的作业属性信息采用作业分类特征模型对作业进行分类,得到作业类型。进一步地,所述作业属性信息包括业务需求指标和数据处理指标;所述业务需求指标包括作业复杂度、作业实时性、作业迭代需求和作业交互需求;所述数据处理指标包括数据源类型、数据规模和数据增量计算需求。进一步地,在该方法中,所述作业类型包括批处理作业和流处理作业。进一步地,在该方法中,所述作业分类特征模型构建的具体步骤包括:选取对于作业属于批处理作业还是流处理作业有显著影响的作业属性信息,通过基于CART节点分裂算法的随机森林算法,对作业属性训练样本集进行训练,构建用户作业应用场景下适用的作业分类特征模型;所述作业属性训练样本集是用户应用场景下已成功识别作业类型及适用的计算框架的大量案例的作业属性数据及识别结果。进一步地,在该方法中,所述选择用户作业适用的计算框架的具体步骤包括:获取识别出的作业类型和选择用户作业适用的计算框架所需的作业属性信息;从预先统计可选计算框架池中具有的相应作业类型的计算框架的种类中获取该作业可选择的计算框架范围;基于根据作业类型构建对应类型的计算框架选择模型,根据作业属性信息,从该作业可选择的计算框架范围中选择用户作业适用的计算框架。进一步地,在该方法中,所述计算框架选择模型构建的具体步骤包括:根据作业应用场景以及可选计算框架池中包含的计算框架种类,选取作业属性训练样本集中具有相应作业类型的作业,汇总其作业属性信息及适用的计算框架,形成计算框架选择训练集,采用基于CART的随机森林算法进行训练,构建计算框架选择模型;所述作业属性训练样本集是用户应用场景下已成功识别作业类型及适用的计算框架的大量案例的作业属性数据及识别结果。进一步地,在该方法中,还包括接收人工修正请求,人工修正选择出的用户作业适用的计算框架。根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于作业类型识别的自适应混合计算框架生成方法。根据本公开的一个或多个实施例的一个方面,提供一种终端设备。一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于作业类型识别的自适应混合计算框架生成方法。根据本公开的一个或多个实施例的一个方面,提供一种数据处理方法。一种数据处理方法,该方法基于一种基于作业类型识别的自适应混合计算框架生成方法,包括:接收用户客户端提交的作业,采用选择出的用户作业适用的计算框架对用户客户端提交的采用统一编程模型编写的作业进行数据处理;在数据处理中通过集群资源调度模块统一管理调度集群资源。进一步地,在该方法中,所述数据处理的具体步骤包括:对用户提交的采用统一编程模型编写的作业翻译成选择出的用户作业适用的计算框架支持的业务逻辑,生成数据处理逻辑链;将数据处理逻辑链迁移到可选计算框架池中选择出的用户作业适用的计算框架中,实现数据处理,得到作业执行结果;将作业执行结果返回至用户客户端。进一步地,在该方法中,所述可选计算框架池根据实际业务需要动态配置多种类型的计算架构,包括批处理计算框架池和流处理计算框架池,通过插本文档来自技高网
...

【技术保护点】
1.一种基于作业类型识别的自适应混合计算框架生成方法,其特征在于,该方法包括:接收用户客户端提交的作业,实时提取作业属性信息,识别作业类型;根据作业类型构建对应类型的计算框架选择模型,从集群计算框架池中具有的该类型作业对应的计算框架中,选择用户作业适用的计算框架。

【技术特征摘要】
1.一种基于作业类型识别的自适应混合计算框架生成方法,其特征在于,该方法包括:接收用户客户端提交的作业,实时提取作业属性信息,识别作业类型;根据作业类型构建对应类型的计算框架选择模型,从集群计算框架池中具有的该类型作业对应的计算框架中,选择用户作业适用的计算框架。2.如权利要求1所述的一种基于作业类型识别的自适应混合计算框架生成方法,其特征在于,在该方法中,所述用户客户端提交的作业为采用统一编程模型编写的作业;进一步地,在该方法中,所述实时提取作业属性信息,识别作业类型的具体步骤包括:从用户客户端提交的作业中提取作业属性信息,并进行标准化预处理;根据标准化预处理后的作业属性信息采用作业分类特征模型对作业进行分类,得到作业类型;进一步地,所述作业属性信息包括业务需求指标和数据处理指标;所述业务需求指标包括作业复杂度、作业实时性、作业迭代需求和作业交互需求;所述数据处理指标包括数据源类型、数据规模和数据增量计算需求;进一步地,在该方法中,所述作业类型包括批处理作业和流处理作业;进一步地,在该方法中,所述作业分类特征模型构建的具体步骤包括:选取对于作业属于批处理作业还是流处理作业有显著影响的作业属性信息,通过基于CART节点分裂算法的随机森林算法,对作业属性训练样本集进行训练,构建用户作业应用场景下适用的作业分类特征模型;所述作业属性训练样本集是用户应用场景下已成功识别作业类型及适用的计算框架的大量案例的作业属性数据及识别结果;进一步地,在该方法中,所述选择用户作业适用的计算框架的具体步骤包括:获取识别出的作业类型和选择用户作业适用的计算框架所需的作业属性信息;从预先统计可选计算框架池中具有的相应作业类型的计算框架的种类中获取该作业可选择的计算框架范围;基于根据作业类型构建对应类型的计算框架选择模型,根据作业属性信息,从该作业可选择的计算框架范围中选择用户作业适用的计算框架;进一步地,在该方法中,所述计算框架选择模型构建的具体步骤包括:根据作业应用场景以及可选计算框架池中包含的计算框架种类,选取作业属性训练样本集中具有相应作业类型的作业,汇总其作业属性信息及适用的计算框架,形成计算框架选择训练集,采用基于CART的随机森林算法进行训练,构建计算框架选择模型;所述作业属性训练样本集是用户应用场景下已成功识别作业类型及适用的计算框架的大量案例的作业属性数据及识别结果。3.如权利要求1所述的一种基于作业类型识别的自适应混合计算框架生成方法,其特征在于,在该方法中,还包括接收人工修正请求,人工修正选择出的用户作业适用的计算框架。4.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求1-3任一项所述的一种基于作业类型...

【专利技术属性】
技术研发人员:史玉良张坤
申请(专利权)人:山东大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1