一种大数据分布式调度分析方法、系统装置及存储介质制造方法及图纸

技术编号:16873842 阅读:212 留言:0更新日期:2017-12-23 11:46
本发明专利技术公开了一种大数据分布式调度分析方法、系统、装置及存储介质,其中,所述方法包括:调度服务端模块依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;大数据分析模块通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。通过采用分布式调度方式和成熟的作业框架,可有效提高基于大数据的作业处理性能和数据分析效率。

A large data distributed scheduling analysis method, system device and storage medium

The invention discloses a method, system, device and storage medium, analysis of a large data distributed scheduling which, the method includes: using the state information server scheduling module sequentially acquire distributed job server, according to the state information, select the qualified standard source idle job server operating procedures to run large data; through the job analysis module uses component framework, the operation procedures after the data analysis of large data processing. Through the use of distributed scheduling and mature job framework, the performance of job processing and data analysis efficiency based on large data can be effectively improved.

【技术实现步骤摘要】
一种大数据分布式调度分析方法、系统装置及存储介质
本专利技术涉及数据处理领域,更为具体而言,涉及一种大数据分布式调度分析方法、系统装置及存储介质。
技术介绍
随着网络及电子商务的普及,大数据的调度处理及数据分析变得越发复杂。对于实际生产中的大数据处理,由于现实数据的复杂性、多样性,必不可少的,多种技术结合(分布式平台技术Hadoop、分布式数据库技术GreenPlum)、多种语言公用(常用如Java、Perl、Python、Bash)乃至分布式处理都是需要的。通常来说,现有的ETL(Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)系统主要用于构建数据仓库(DW),其最主要的关注意义在于实现传统数据处理的分离,以便规定数据处理的规范化、提高数据集成完备性,缺少对现有的大数据处理的技术支持。当前,对于大数据量的数据处理,都会遇到效率上和稳定性上的瓶颈,以及因为这些瓶颈而无法实现准实时性,存在调度能力差且处理效率低的问题。并且,由于大数据项目的多样性和规模性,存在如下技术问题:现有的ETL系统并没有一种用于大数据技术的主流语言规范和函数库,没法支持使用各种语言的开发人员同时参与项目,导致大数据分析处理效率低且规范性差等难以克服的问题。
技术实现思路
鉴于现有技术的上述缺陷,本专利技术实施方式提供了一种大数据分布式调度分析方法、系统、装置及存储介质,通过采用分布式调度方式和成熟的作业框架,可有效解决当前大数据调度能力差、处理效率低以及大数据分析处理效率低且规范性差等难以克服的问题。具体地,本专利技术实施方式提供了一种大数据分布式调度分析方法,其包括:调度服务端模块依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;大数据分析模块通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。相应地,本专利技术实施方式还提供了一种大数据分布式调度分析系统,其包括:调度服务端模块,用于依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;大数据分析模块,用于通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。此外,本专利技术实施方式还提供一种大数据分布式调度分析装置,包括存储器和处理器,其中,所述存储器用于存储一条或多条供所述处理器调用执行的计算机指令,所述处理器通过执行所述计算机指令实现如上所述的方法。此外,本专利技术实施方式还提供一种计算机存储介质,所述计算机存储介质存储有程序,所述程序在执行时实现如前所述的方法。通过采用本专利技术实施方式具有下述有益效果:通过采用分布式调度方式和成熟的作业框架,可有效提高基于大数据的作业处理性能和数据分析效率。附图说明图1是根据本专利技术实施方式的一种大数据分布式调度分析方法的流程示意图;图2是本专利技术实施方式中所述步骤S2的部分流程示意图;图3是根据本专利技术实施方式的一种大数据分布式调度分析系统的架构图。具体实施方式为了便于理解本专利技术技术方案的各个方面、特征以及优点,下面结合附图对本专利技术进行具体描述。应当理解,下述的各种实施方式只用于举例说明,而非用于限制本专利技术的保护范围。首先对根据本专利技术可能涉及到的名称或术语进行解释。大数据分析:是指对规模巨大的数据进行分析。常用的技术如:分布式平台Apache-Hadoop(以及基于Hadoop的Hive、Pig、HBase等)、分布式数据库GreenPlum(比如EMC-GreenPlum)。ETL:是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。作业:应用分析处理的单位,为某一目标结果对数据进行处理的过程。本文中可代指ETL处理子过程。分布式系统:支持分布式处理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统。数据仓库:英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。实施例1:图1是根据本专利技术实施方式的一种大数据分布式调度分析方法的流程示意图。参照图1,具体实施例如下,所述方法包括:步骤S1,调度服务端模块依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序。其中,多个作业服务器上部署的ETL系统间通过定时更新数据库状态对自身的状态进行监控以维持稳定性。步骤S2,大数据分析模块通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。本专利技术通过采用分布式调度方式和成熟的作业框架,可有效提高基于大数据的作业处理性能和数据分析效率。具体而言,在步骤S1中,各个作业达到执行条件(运行时间到达)时,总控根据各服务器(例如:server1,server2,server3等)的资源情况(CPU、内存使用率)来对作业的执行分配资源,此时作业上锁,并在指定机器上执行。当作业执行完成后,作业的执行状态变为已经执行完成。具体流程如下:流程1:服务器根据运行时间1000,判断时间已到,所以此时server1上的调度服务端模块获取server1的CPU使用状态和内存使用率,如发现CPU使用或内存使用率状态高于80%,则判断下一台机器server2,以此类推,如果集群内没有资源空闲的机器,则再等待1分钟后重新判断。Step2:如果达到了运行条件且有机器有空闲资源,则获取作业语言Type、找到作业程序路径并调起程序。示例:作业语言是1-shell,则在指定的机器上执行命令:shshell_executor.shjobPathjobArgs。其中,shell_executor.sh是一个用来执行1-shell类型作业的脚本,具体功能:找到jobPath的程序,并将jobArgs的参数传给程序,调起程序,如果程序运行成功,将返回的状态(0-成功,1-异常)传给该机器的调度服务端模块,调度服务端模块根据结果更新作业运行状态,如果是成功,则将业务日期加1.如果是失败,则作业运行状态为异常,等待人工处理,查看作业运行打出的日志,并修改数据库中的作业运行状态为0-准备。分布式运行作业的特点:在这里举一个例子以体现以上作业配置的设计师如何解决分布式运行作业的问题,以实现多机器并行处理,这也是现有的调度工具所不具有的功能。作业功能:对A系统送过来的100个文件:(fileName_01.data到fileName_100.data)进行数据转换处理,而转换处理涉及到大量的CPU操作,如果多台机器能够同时处理且较为简单便能实现,可大幅度提高效率。计划处理方式:将100个文件,分别用5台机器来进行转换处理。处理过程:则在数据库中配置5个作业,ID分别为:101、102、103、104、105,调用程序均为java.part1.transform.T_ebs_file_location,其他参数一样,运行参数本文档来自技高网...
一种大数据分布式调度分析方法、系统装置及存储介质

【技术保护点】
一种大数据分布式调度分析方法,其特征在于,所述方法包括:调度服务端模块依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;大数据分析模块通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。

【技术特征摘要】
1.一种大数据分布式调度分析方法,其特征在于,所述方法包括:调度服务端模块依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;大数据分析模块通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。2.如权利要求1所述的方法,其特征在于,所述方法还包括:采用双监控模式,对所述调度服务端模块的运行进程进行监控维护处理。3.如权利要求1所述的方法,其特征在于,所述方法还包括:所述调度服务端模块根据作业语言类别,选择对应的语言执行工具,并采用动态加载方式执行多语言调用程序。4.如权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:所述大数据分析模块根据不同的技术类别封装并形成函数库,根据调用所述函数库和所述组件框架,通过输入参数进行所述大数据分析处理。5.一种大数据分布式调度分析系统,其特征在于,所述系统包括:调度服务端模块,用于依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;...

【专利技术属性】
技术研发人员:李威范会善苏建标王泽龙吴仰波
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1