一种大数据便捷分布式计算支持系统技术方案

技术编号:14916188 阅读:95 留言:0更新日期:2017-03-30 04:57
本发明专利技术公开一种大数据便捷分布式计算支持系统,包括计算任务接收接口、计算任务识别与转换系统、植入式可编辑专家库系统、植入式可编辑规则库系统、分布式计算集群访问及控制接口、数据统一访问接口。本发明专利技术通过将满足特定语法的计算任务文本,识别并转换为可执行脚本,与经过植入式可编辑规则库系统和植入式可编辑专家库系统转换得的计算脚本片段,一起下达至分布式计算集群访问及控制接口并执行,从而减轻了用户对企业数据进行大数据分析的编程压力,降低了大数据分析计算的编程专业要求,为用户提供了更加便捷的大数据分布式计算分析支持,使得用户能够更加专注于数据分析本身,更有效地挖掘数据潜在的价值,提高数据的利用率。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理
,具体涉及一种大数据便捷分布式计算支持系统。
技术介绍
大数据的出现,引发了全球性的技术革命,并彻底改变了人们的日常生活以及生产和科研,掀起了全球范围的技术革命与变革。大数据的广泛应用,不仅限于互联网领域,在工业领域也扮演着重要的角色。现代大型企业中,尤其像电力系统这样复杂的系统,每天都产生大量的运行监测数据。与这些大数据相关的收集、传输和存储技术发展较快,但与之对应的数据分析处理技术研究却发展相对滞后,其核心原因之一便是在该行业的专业人员难以同时具有非常高的计算机技术水平,很难对系统的数据进行快速的分析和挖掘。此时,迫切需要能够提供更便捷的数据分析服务、减轻专业人员对数据挖掘分析工作压力的解决方案。
技术实现思路
为了克服上述现有技术中存在的问题,本专利技术提出了一种大数据便捷分布式计算支持系统,通过定义简化的大数据计算分析任务以降低用户编写大数据分析脚本的难度,再通过结合规则库和专家库系统,进一步降低用户编写分析脚本的难度。为实现上述目的,本专利技术采用的技术方案为:一种大数据便捷分布式计算支持系统,包括计算任务接收接口、计算任务识别与转换系统、植入式可编辑专家库系统、植入式可编辑规则库系统、分布式计算集群访问及控制接口和数据统一访问接口,所述计算任务识别与转换系统分别与所述植入式可编辑专家库系统、植入式可编辑规则库系统、计算任务接收接口和分布式计算集群访问及控制接口连接,所述数据统一访问接口分别与所述植入式可编辑专家库系统和植入式可编辑规则库系统连接,所述计算任务接收接口用于接收来自用户的计算任务请求,验证用户身份并将任务传递至所述计算任务识别与转换系统;所述计算任务识别与转换系统用于识别所述计算任务并将所述任务转换为可执行脚本,在转换过程中,将所述计算任务中调用到的所述植入式可编辑规则库系统或植入式可编辑专家库系统中的语句,传递至相应的所述植入式可编辑规则库系统或植入式可编辑专家库系统,并将返回的可执行脚本片段植入所述可执行脚本,得到完整的总可执行脚本,最后将所述总可执行脚本传输至所述分布式计算集群访问及控制接口。优选的,所述计算任务为一文本文件,所述文本文件的格式是Python格式脚本或满足所述系统文法规则的文本。优选的,所述文法规则是指文本的每行为满足以下格式的语句的组合:拟调用的数据源+各个数据源在规则库中异常时的处理方法+拟调用的算法+结果数据的存储地址。优选的,所述拟调用的数据源由源数据、计算结果数据和满足所述植入式可编辑规则库系统任一规则的数据集组成。优选的,所述异常时的处理方法包括丢弃、置为默认值和线性插补。优选的,所述拟调用的算法包括基础统计学分析算法和机器学习分析算法。优选的,所述植入式可编辑规则库系统能够为用户提供数据是否为空判断、数据是否格式合法判断和数据是否越界判断。优选的,所述植入式可编辑专家库系统由一条或多条规则组成,能够为用户提供数据是否满足所述规则的判断服务,并将满足所述规则的数据形成数据集,所述数据集构成一个数据源。优选的,所述植入式可编辑规则库系统和植入式可编辑专家库系统,通过内嵌Web服务为用户提供可视化的编辑服务。优选的,所述数据统一访问接口能够同时连接一个或多个HDFS、HBase和Cassandra大数据分布式存储系统,所述分布式计算集群访问及控制接口能够同时连接一个或多个Hadoop集群和Spark集群。本专利技术的有益效果是:本专利技术通过定义特定的计算任务文本格式并提供转换和执行支持,减轻了分析人员的编程压力,并且通过植入式的规则库和专家库的实现,进一步减轻了用户编写计算任务的难度,从而大大降低了用户对企业数据进行大数据分布式计算分析的难度,使得用户能够更加专注于行业中的业务本身,更有效地挖掘数据潜在的价值,提高数据的利用率。附图说明附图1为本专利技术提出的一种大数据便捷分布式计算支持系统结构框图。具体实施方式下面将结合附图,详细说明本专利技术提出的方案。由附图1可知,一种大数据便捷分布式计算支持系统,包括6个部分,分别是:计算任务接口、计算任务识别与转换系统、植入式可编辑专家库系统、植入式可编辑规则库系统、分布式计算集群访问及控制接口和数据统一访问接口,所述计算任务识别与转换系统分别与所述植入式可编辑专家库系统、植入式可编辑规则库系统、计算任务接收接口和分布式计算集群访问及控制接口连接,所述数据统一访问接口分别与所述植入式可编辑专家库系统和植入式可编辑规则库系统连接。其中:计算任务接收接口,可由典型的Web服务器搭建而成,提供用户身份验证和接收用户计算任务的服务。用户可编写复合格式的计算任务文本,通过Web服务的方式提交至计算任务接收接口,从而上传自己的计算分析任务。计算任务识别与转换系统,可用典型的web服务器语言Java编写并部署至服务器,分别与计算任务接收接口、植入式可编辑专家库系统、植入式可编辑规则库系统和分布式计算集群访问及控制接口进行数据交互,其内部的计算任务识别与转换模块,可按照典型的堆栈式解析器组织搭建。本实施例中的计算任务表现为一文本文件,而文本文件的格式要么是能够直接调用分布式计算集群的Python格式脚本,要么是满足本系统文法规则的文本。其中:所述的文法规则是指文本的每行由满足以下格式的语句组成:拟调用的数据源+各个数据源的在规则库中异常时的处理方法+拟调用的算法+结果数据的存储地址当数据源中有多个数据时,各个数据间用逗号隔开;而拟调用的数据源可以由源数据、计算结果数据及满足植入式可编辑规则库系统任一规则的数据集组成;异常时的处理方法包括:丢弃、置为默认值、线性插补等;拟调用的算法包括基础统计学分析算法和常见的机器学习分析算法。植入式可编辑规则库系统,由规则库表和规则库脚本转换器组成,部署至服务器并连接至数据统一访问接口和计算任务识别与转换系统,共同向用户提供基于web的可视化编辑服务。规则库脚本转换器可用Java语言编写,根据数据信息,将某条具体的规则转换为对应的可执行脚本片段。特别地:所述植入式可编辑规则库系统,能够为用户提供包括数据是否为空判断、数据是否格式合法判断和数据是否越界判断。植入式可编辑专家库系统,由一条或多条专家库规则组成,包括专家库表和专家系统脚本转换器,部署至服务器并连接至数据统一访问接口和计算任务识别与转换系统,该系统不仅向用户提供基于web的可视化编辑服务,还能够为用户提供数据是否满足专家库规则的判断服务,并将满足规则的数据形成数据集,比如将在同一时刻多个数据是否同时在一定值范围内,或者单个数据在某段时间是否满足一定变化规律定义为一个“A类异常”,则该异常能够在计算过程中形成一个数据集,从而构成一个数据源;专家系统脚本转换器可用Java语言编写,根据数据信息,将某条具体的规则转换为对应的可执行脚本片段。数据统一访问接口和分布式计算集群访问及控制接口,可用Java语言编写,部署至服务器,能够实现其对应的连接及控制功能即可。其中数据统一访问接口,用于连接至大数据数据源,该接口能够同时连接一个或多个HDFS、HBase和Cassandra等典型的大数据分布式存储系统,为植入式可编辑专家库系统和植入式可编辑规则库系统提供数据源信息,以辅助其为用户提供可视化编辑服务;而分布式计算集群访本文档来自技高网...

【技术保护点】
一种大数据便捷分布式计算支持系统,其特征在于,包括计算任务接收接口、计算任务识别与转换系统、植入式可编辑专家库系统、植入式可编辑规则库系统、分布式计算集群访问及控制接口和数据统一访问接口,所述计算任务识别与转换系统分别与所述植入式可编辑专家库系统、植入式可编辑规则库系统、计算任务接收接口和分布式计算集群访问及控制接口连接,所述数据统一访问接口分别与所述植入式可编辑专家库系统和植入式可编辑规则库系统连接,所述计算任务接收接口用于接收来自用户的计算任务请求,验证用户身份并将任务传递至所述计算任务识别与转换系统;所述计算任务识别与转换系统用于识别所述计算任务并将所述任务转换为可执行脚本,在转换过程中,将所述计算任务中调用到的所述植入式可编辑规则库系统或植入式可编辑专家库系统中的语句,传递至相应的所述植入式可编辑规则库系统或植入式可编辑专家库系统,并将返回的可执行脚本片段植入所述可执行脚本,得到完整的总可执行脚本,最后将所述总可执行脚本传输至所述分布式计算集群访问及控制接口。

【技术特征摘要】
1.一种大数据便捷分布式计算支持系统,其特征在于,包括计算任务接收接口、计算任务识别与转换系统、植入式可编辑专家库系统、植入式可编辑规则库系统、分布式计算集群访问及控制接口和数据统一访问接口,所述计算任务识别与转换系统分别与所述植入式可编辑专家库系统、植入式可编辑规则库系统、计算任务接收接口和分布式计算集群访问及控制接口连接,所述数据统一访问接口分别与所述植入式可编辑专家库系统和植入式可编辑规则库系统连接,所述计算任务接收接口用于接收来自用户的计算任务请求,验证用户身份并将任务传递至所述计算任务识别与转换系统;所述计算任务识别与转换系统用于识别所述计算任务并将所述任务转换为可执行脚本,在转换过程中,将所述计算任务中调用到的所述植入式可编辑规则库系统或植入式可编辑专家库系统中的语句,传递至相应的所述植入式可编辑规则库系统或植入式可编辑专家库系统,并将返回的可执行脚本片段植入所述可执行脚本,得到完整的总可执行脚本,最后将所述总可执行脚本传输至所述分布式计算集群访问及控制接口。2.根据权利要求1所述的一种大数据便捷分布式计算支持系统,其特征在于,所述计算任务为一文本文件,所述文本文件的格式是Python格式脚本或满足所述系统文法规则的文本。3.根据权利要求2所述的一种大数据便捷分布式计算支持系统,其特征在于,所述文法规则是指文本的每行为满足以下格式的语句的组合:拟调用的数据源+各个数据源在规则库中异常时的处理方法+拟调用的算法+结果数据...

【专利技术属性】
技术研发人员:陶松梅郭丽娟尹立群高文胜张炜黄志都张玉波陈云裴蕾邬蓉蓉吴秋莉
申请(专利权)人:广西电网有限责任公司电力科学研究院
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1