The invention discloses a method, system, device and storage medium, analysis of a large data distributed scheduling which, the method includes: using the state information server scheduling module sequentially acquire distributed job server, according to the state information, select the qualified standard source idle job server operating procedures to run large data; through the job analysis module uses component framework, the operation procedures after the data analysis of large data processing. Through the use of distributed scheduling and mature job framework, the performance of job processing and data analysis efficiency based on large data can be effectively improved.
【技术实现步骤摘要】
一种大数据分布式调度分析方法、系统装置及存储介质
本专利技术涉及数据处理领域,更为具体而言,涉及一种大数据分布式调度分析方法、系统装置及存储介质。
技术介绍
随着网络及电子商务的普及,大数据的调度处理及数据分析变得越发复杂。对于实际生产中的大数据处理,由于现实数据的复杂性、多样性,必不可少的,多种技术结合(分布式平台技术Hadoop、分布式数据库技术GreenPlum)、多种语言公用(常用如Java、Perl、Python、Bash)乃至分布式处理都是需要的。通常来说,现有的ETL(Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程)系统主要用于构建数据仓库(DW),其最主要的关注意义在于实现传统数据处理的分离,以便规定数据处理的规范化、提高数据集成完备性,缺少对现有的大数据处理的技术支持。当前,对于大数据量的数据处理,都会遇到效率上和稳定性上的瓶颈,以及因为这些瓶颈而无法实现准实时性,存在调度能力差且处理效率低的问题。并且,由于大数据项目的多样性和规模性 ...
【技术保护点】
一种大数据分布式调度分析方法,其特征在于,所述方法包括:调度服务端模块依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;大数据分析模块通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。
【技术特征摘要】
1.一种大数据分布式调度分析方法,其特征在于,所述方法包括:调度服务端模块依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;大数据分析模块通过采用组件化的作业框架,对所述运行作业程序后的数据进行大数据分析处理。2.如权利要求1所述的方法,其特征在于,所述方法还包括:采用双监控模式,对所述调度服务端模块的运行进程进行监控维护处理。3.如权利要求1所述的方法,其特征在于,所述方法还包括:所述调度服务端模块根据作业语言类别,选择对应的语言执行工具,并采用动态加载方式执行多语言调用程序。4.如权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:所述大数据分析模块根据不同的技术类别封装并形成函数库,根据调用所述函数库和所述组件框架,通过输入参数进行所述大数据分析处理。5.一种大数据分布式调度分析系统,其特征在于,所述系统包括:调度服务端模块,用于依次获取分布式作业服务器的使用状态信息,根据所述使用状态信息,选取符合资源空闲标准的所述作业服务器运行作业程序;...
【专利技术属性】
技术研发人员:李威,范会善,苏建标,王泽龙,吴仰波,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。