基于Spark的离线数据处理系统、运行方法、设备及介质技术方案

技术编号:37817258 阅读:17 留言:0更新日期:2023-06-09 09:48
本发明专利技术公开了一种基于Spark的离线数据处理系统、运行方法、设备及介质,包括:可视化交互层,用于提供离线数据的任务节点配置界面和工作流配置界面,并将配置好的工作流发送至解释执行层;解释执行层,用于接收可视化交互层发送来的工作流,按照预设的调度执行策略,读取工作流中的任务节点并将经解释器处理后的任务节点发送至数据处理层;数据处理层,用于接收经解释器处理过的任务节点,将Spark作为计算引擎,运行任务节点,得到运行结果;可视化交互层,用于提供结果显示界面,将接收到的运行结果展示在结果显示界面上。采用本发明专利技术实施例能够方便用户以较小的学习成本完成海量数据的处理分析,降低了海量数据处理操作的门槛。槛。槛。

【技术实现步骤摘要】
基于Spark的离线数据处理系统、运行方法、设备及介质


[0001]本专利技术涉及基于Spark的离线数据处理
,尤其涉及一种基于Spark的离线数据处理系统、运行方法、设备及介质。

技术介绍

[0002]当前海量数据处理分析工具中,以Apache Flink和Apache Spark为代表的流、批混合计算引擎(平台)拥有较大的流行度。Flink的批处理模型在很大程度上仅是对流处理模型的扩展,而Spark为流处理系统采用批处理的方法,需要对进入系统的数据进行缓冲,等待缓冲区清空会导致延迟增高,不适合处理对延迟有较高要求的工作负载。因此,Spark引擎(平台)更适合离线批处理需求下的数据处理任务。然而基于Spark的数据处理分析应用在开发、测试、使用过程中,仍面临使用门槛普遍较高问题,例如使用者需要具备专业的数据处理知识、学习掌握工具的处理方法、要求具备一定的编码能力等。

技术实现思路

[0003]本专利技术实施例的目的是提供一种基于Spark的离线数据处理系统、运行方法、设备及介质,通过对离线数据的计算处理可配置化,方便用户以较小的学习成本完成海量数据的处理分析,降低了海量数据处理操作的门槛。
[0004]为实现上述目的,本专利技术实施例提供了一种基于Spark的离线数据处理系统,包括:
[0005]可视化交互层,用于提供离线数据的任务节点配置界面和工作流配置界面,并将配置好的工作流发送至解释执行层;其中,所述工作流包括若干配置好的任务节点;
[0006]所述解释执行层,用于接收所述可视化交互层发送来的所述工作流,按照预设的调度执行策略,读取所述工作流中的任务节点并将经解释器处理后的所述任务节点发送至数据处理层;
[0007]所述数据处理层,用于接收经所述解释器处理过的任务节点,将Spark作为计算引擎,运行所述任务节点,得到运行结果;
[0008]所述可视化交互层,用于提供结果显示界面,将接收到的所述运行结果展示在所述结果显示界面上。
[0009]作为上述方案的改进,所述任务节点配置界面包括:任务节点名称输入子界面、数据源字段输入子界面、计算程序类型选择子界面、Spark应用名称输入子界面、Spark运行参数输入子界面、输出返回值确定子界面和任务节点配置保存确定子界面。
[0010]作为上述方案的改进,所述工作流配置界面包括:工作流名称输入子界面、任务节点放置子界面、工作流调度执行策略选择界面、工作流数据共享确认界面和工作流配置保存子界面。
[0011]作为上述方案的改进,响应于用户的工作流数据共享确认指令,所述解释执行层还用于:
[0012]实例化任意一个org.apache.spark.repl.SparkILoop类的对象SparkILoop;
[0013]通过所述对象SparkILoop,调用getAddedJars()方法,加载org.apache.spark.repl.Main所依赖的外部Jar包环境,获取所述外部Jar包环境的路径;
[0014]通过所述对象SparkILoop,实例化解释器类IMain的对象intp;
[0015]由所述解释器类IMain的对象intp,通过Java的反射机制,获取repl class uri地址的属性值;
[0016]将预设的外部环境配置参数、所述属性值和所述路径传递到SparkConf中;
[0017]由repl包通过SparkConf生成一个新的SparkContext对象;
[0018]将需要执行的任务节点交给所述解释器类IMain的对象intp,并将得到的经所述解释器类IMain的对象intp处理过的任务节点发送至所述数据处理层。
[0019]作为上述方案的改进,所述解释执行层还用于:
[0020]对所述任务节点和所述工作流进行校验,当校验到所述任务节点存在于节点库中,且所述工作流是合法的DAG时,开始读取所述工作流中的任务节点。
[0021]为实现上述目的,本专利技术实施例提供了一种基于Spark的离线数据处理系统的运行方法,应用上述的基于Spark的离线数据处理系统,所述运行方法包括:
[0022]调用可视化交互层,提供离线数据的任务节点配置界面和工作流配置界面,并将配置好的工作流发送至解释执行层;其中,所述工作流包括若干配置好的任务节点;
[0023]调用所述解释执行层,接收所述可视化交互层发送来的所述工作流,按照预设的调度执行策略,读取所述工作流中的任务节点并将经解释器处理后的所述任务节点发送至数据处理层;
[0024]调用数据处理层,接收经所述解释器处理过的任务节点,将Spark作为计算引擎,运行所述任务节点,得到运行结果;
[0025]调用可视化交互层,提供结果显示界面,将接收到的所述运行结果展示在所述结果显示界面上。
[0026]作为上述方案的改进,所述任务节点配置界面包括:任务节点名称输入子界面、数据源字段输入子界面、计算程序类型选择子界面、Spark应用名称输入子界面、Spark运行参数输入子界面、输出返回值确定子界面和任务节点配置保存确定子界面。
[0027]作为上述方案的改进,所述工作流配置界面包括:工作流名称输入子界面、任务节点放置子界面、工作流调度执行策略选择界面、工作流数据共享确认界面和工作流配置保存子界面。
[0028]为实现上述目的,本专利技术实施例提供了一种基于Spark的离线数据处理系统的运行设备,包括:
[0029]存储器,用于存储可执行指令;
[0030]处理器,用于执行所述存储器中存储的可执行指令时,实现如上述的基于Spark的离线数据处理方法。
[0031]为实现上述目的,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上述的基于Spark的离线数据处理方法。
[0032]与现有技术相比,本专利技术实施例提供的一种基于Spark的离线数据处理系统、运行
方法、设备及介质,通过设置可视化交互层,实现对离线数据的任务节点配置和工作流配置,方便用户以较小的学习成本完成海量数据的处理分析,降低了海量数据处理操作的门槛,并且将运行结果进行展示,方便用户直观了解。
附图说明
[0033]图1是本专利技术实施例提供的一种基于Spark的离线数据处理系统的结构框图;
[0034]图2是本专利技术实施例提供的一种基于Spark的离线数据处理系统的运行方法的流程图。
具体实施方式
[0035]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0036]参见图1,图1是本专利技术实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Spark的离线数据处理系统,其特征在于,包括:可视化交互层,用于提供离线数据的任务节点配置界面和工作流配置界面,并将配置好的工作流发送至解释执行层;其中,所述工作流包括若干配置好的任务节点;所述解释执行层,用于接收所述可视化交互层发送来的所述工作流,按照预设的调度执行策略,读取所述工作流中的任务节点并将经解释器处理后的所述任务节点发送至数据处理层;所述数据处理层,用于接收经所述解释器处理过的任务节点,将Spark作为计算引擎,运行所述任务节点,得到运行结果;所述可视化交互层,用于提供结果显示界面,将接收到的所述运行结果展示在所述结果显示界面上。2.如权利要求1所述的基于Spark的离线数据处理系统,其特征在于,所述任务节点配置界面包括:任务节点名称输入子界面、数据源字段输入子界面、计算程序类型选择子界面、Spark应用名称输入子界面、Spark运行参数输入子界面、输出返回值确定子界面和任务节点配置保存确定子界面。3.如权利要求1所述的基于Spark的离线数据处理系统,其特征在于,所述工作流配置界面包括:工作流名称输入子界面、任务节点放置子界面、工作流调度执行策略选择界面、工作流数据共享确认界面和工作流配置保存子界面。4.如权利要求3所述的基于Spark的离线数据处理系统,其特征在于,响应于用户的工作流数据共享确认指令,所述解释执行层还用于:实例化任意一个org.apache.spark.repl.SparkILoop类的对象SparkILoop;通过所述对象SparkILoop,调用getAddedJars()方法,加载org.apache.spark.repl.Main所依赖的外部Jar包环境,获取所述外部Jar包环境的路径;通过所述对象SparkILoop,实例化解释器类IMain的对象intp;由所述解释器类IMain的对象intp,通过Java的反射机制,获取repl class uri地址的属性值;将预设的外部环境配置参数、所述属性值和所述路径传递到SparkConf中;由repl包通过SparkConf生成一个新的SparkContext对象;将需要执行的任务节点交给所述解释器类IMain的对象intp,并将得到的经所述解释器类IMain的对象intp...

【专利技术属性】
技术研发人员:羊少帅张铁山刘韧廖海波
申请(专利权)人:中电科普天科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1