混合计算框架生成、数据处理方法、装置及混合计算框架制造方法及图纸

技术编号：21453507 阅读：22 留言：0更新日期：2019-06-26 04:38

本发明专利技术公开了一种混合计算框架生成、数据处理方法、装置及混合计算框架，在底层大数据集群的基础上，通过集群资源的统一调度实现对计算框架的资源支撑，接收用户提交根据统一编程模型的编写的作业，识别作业类型并自动判断适用的计算框架，实现不同应用场景下批量数据、流数据等的统一处理，有效实现更好的通用性并更好的提升性能。

全部详细技术资料下载

【技术实现步骤摘要】
混合计算框架生成、数据处理方法、装置及混合计算框架
本公开属于分布式计算的
，涉及一种混合计算框架生成、数据处理方法、装置及混合计算框架，尤其涉及一种基于作业类型识别的自适应混合计算框架生成方法及装置、一种数据处理方法及装置以及一种基于作业类型识别的自适应混合计算框架。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。随着信息技术的不断发展，数据处理面对的数据量快速增长，需挖掘数据种类越来越多，包括结构化数据、文本数据、图形数据、数据流等，离线处理、在线计算、图算法、迭代式算法。目前大数据处理基本可分为两个类型：(1)复杂的批量数据计算处理，通常时间跨度在数十分钟到数小时之间；(2)基于实时数据流的数据处理，通常的时间跨度在数百毫秒到数秒之间。两种处理类型目前都已有相对成熟的架构来处理，如利用MapReduce来进行批量数据处理，利用Storm来进行实时数据流的处理。根据处理类型，当前大数据处理框架一般分为批处理计算框架、流处理计算框架和混合处理计算框架三类，批处理计算框架以Hadoop等为代表，特点是时间和资源要求低；流处理计算框架以Storm、Samza等为代表，特点是实时性高但吞吐量低；混合处理计算框架包括Spark、Flink，能同时处理批处理和流处理工作负载，但各有侧重，Spark运行原理建立在内存批处理之上，本质上属于批处理计算框架，其流处理SparkStreaming属于微批处理，而Flink是可处理批处理任务的流处理框架，本质上属于流处理计算框架，将批处理当做具备有限边界的数据流处理。设计理念的不同使...

【技术保护点】
1.一种基于作业类型识别的自适应混合计算框架生成方法，其特征在于，该方法包括：接收用户客户端提交的作业，实时提取作业属性信息，识别作业类型；根据作业类型构建对应类型的计算框架选择模型，从集群计算框架池中具有的该类型作业对应的计算框架中，选择用户作业适用的计算框架。

【技术特征摘要】
1.一种基于作业类型识别的自适应混合计算框架生成方法，其特征在于，该方法包括：接收用户客户端提交的作业，实时提取作业属性信息，识别作业类型；根据作业类型构建对应类型的计算框架选择模型，从集群计算框架池中具有的该类型作业对应的计算框架中，选择用户作业适用的计算框架。2.如权利要求1所述的一种基于作业类型识别的自适应混合计算框架生成方法，其特征在于，在该方法中，所述用户客户端提交的作业为采用统一编程模型编写的作业；进一步地，在该方法中，所述实时提取作业属性信息，识别作业类型的具体步骤包括：从用户客户端提交的作业中提取作业属性信息，并进行标准化预处理；根据标准化预处理后的作业属性信息采用作业分类特征模型对作业进行分类，得到作业类型；进一步地，所述作业属性信息包括业务需求指标和数据处理指标；所述业务需求指标包括作业复杂度、作业实时性、作业迭代需求和作业交互需求；所述数据处理指标包括数据源类型、数据规模和数据增量计算需求；进一步地，在该方法中，所述作业类型包括批处理作业和流处理作业；进一步地，在该方法中，所述作业分类特征模型构建的具体步骤包括：选取对于作业属于批处理作业还是流处理作业有显著影响的作业属性信息，通过基于CART节点分裂算法的随机森林算法，对作业属性训练样本集进行训练，构建用户作业应用场景下适用的作业分类特征模型；所述作业属性训练样本集是用户应用场景下已成功识别作业类型及适用的计算框架的大量案例的作业属性数据及识别结果；进一步地，在该方法中，所述选择用户作业适用的计算框架的具体步骤包括：获取识别出的作业类型和选择用户作业适用的计算框架所需的作业属性信息；从预先统计可选计算框架池中具有的相应作业类型的计算框架的种类中获取该作业可选择的计算框架范围；基于根据作业类型构建对应类型的计算框架选择模型，根据作业属性信息，从该作业可选择的计算框架范围中选择用户作业适用的计算框架；进一步地，在该方法中，所述计算框架选择模型构建的具体步骤包括：根据作业应用场景以及可选计算框架池中包含的计算框架种类，选取作业属性训练样本集中具有相应作业类型的作业，汇总其作业属性信息及适用的计算框架，形成计算框架选择训练集，采用基于CART的随机森林算法进行训练，构建计算框架选择模型；所述作业属性训练样本集是用户应用场景下已成功识别作业类型及适用的计算框架的大量案例的作业属性数据及识别结果。3.如权利要求1所述的一种基于作业类型识别的自适应混合计算框架生成方法，其特征在于，在该方法中，还包括接收人工修正请求，人工修正选择出的用户作业适用的计算框架。4.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行如权利要求1-3任一项所述的一种基于作业类型...

【专利技术属性】
技术研发人员：史玉良，张坤，
申请(专利权)人：山东大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人